python-textprocessing

    0

    1答えて

    いつもより多くのnグラムのword2vecモデルを作りたいと思います。私が見つけたように、gensim.models.phraseのフレーズクラスは私が望むフレーズを見つけることができ、コーパスのフレーズを使用することができ、word2vecトレイン機能の結果モデルを使用することができます。 まず最初に、gensim documentationのサンプルコードとまったく同じようにします。 clas

    -3

    1答えて

    私はPythonの初心者ですが、おそらく簡単な質問ですが、私は本当に立ち往生して助けが必要です。私は.txtファイル内の別のものの上にテキストを表示するようにpythonを作りたい。ここに私のコードです x = ''.join(random.choice(string.ascii_uppercase + string.ascii_lowercase + string.digits) for _ i

    -1

    1答えて

    こんにちは私は単語の袋を作成したテキスト処理の分類子を構築しています - 単語が入力として最初に与えられれば、単語が袋に入っていることを確認する必要があります単語 の2番目の問題は、単語の袋をファイルに保存する方法です。

    1

    1答えて

    私はPythonで電子商取引データを扱っています。私はそのデータをPythonでロードし、それをpandasデータフレームに変換しました。今では、不要な文字、ストップワード、ステミングなどを削除するなど、そのデータのテキスト処理を行いたいのですが、現在適用しているコードはうまくいきますが、時間がかかります。私は約200万行のデータを処理する必要があり、それを処理するには永遠にかかる。私は10,00

    0

    1答えて

    は私のテキストファイルは が、私はこの(「NAME1」のような別のテキストファイルで、このファイルや店舗を読みたい NAME1 \ nの 名2 \ nの NAME3の\ nのように見えます、 'name2'、 'name3')をPythonで使えば誰でも助けてくれますか?

    0

    1答えて

    私は、ストップワードを削除し、NLTKで文章に分割することで、これらの電子メールのテキストを処理できるように、エンロン電子メールのすべてのボディを1つのファイルに追加しようとしています。 私の問題は、転送されたメッセージと返信されたメッセージで、私はそれらをきれいにする方法がわかりません。 これは、これまでの私のコードです: import os, email, sys, re,nltk, ppri

    1

    1答えて

    多くの行を含むテキストファイルでは、類似の単語で始まり一意ではない行をすべて抽出する必要があります。 私は、同じ内容(重複する行)またはわずかに異なる内容(最初の単語の後ろ)を持つ可能性がある、同じものから始まる行を探します。私はこの例がそれを説明することを願っています(彼らは一意であるため、この例で廃棄 hungarian-american hungarian-german lied ms

    2

    2答えて

    50 GBのテキストファイルを読み込む必要があります。私はそのファイルで何らかの処理をしなければなりません。私はリモートサーバー上で処理をしているので、テキストファイルをダウンロードできません。 Pythonを使用して、ファイルの内容をそのURLを使用してストリーミングし、行ごとに読み込むことは可能ですか?

    -1

    2答えて

    一部のCSV文書でテキスト解析を開始しています。しかし私のCSVファイルには興味のない単語がいくつかありますので、このCSVファイルを解析したpythonコードを作成して解析用に5単語以上含まれている文章のみを残したいと思いますどこで私のコードを作成し始めるべきか、助けてください。 例:これは(Pythonの3.5で)動作するはず 入力文書 enter image description here

    1

    1答えて

    私はワードファイルの処理にpython docxを使用しています。大きなファイル(50以上のページ)を使用している間、paragraph.textメソッドは、ファイルと矛盾する文字列を返します。 import docx document=Document(f) paratext=[] paragraphs=document.paragraphs for paragraph in parag