python-textprocessing

0熱

1答えて

テキスト処理 - フレーズ検出後のWord2Vecトレーニング（バイグラムモデル）

いつもより多くのnグラムのword2vecモデルを作りたいと思います。私が見つけたように、gensim.models.phraseのフレーズクラスは私が望むフレーズを見つけることができ、コーパスのフレーズを使用することができ、word2vecトレイン機能の結果モデルを使用することができます。まず最初に、gensim documentationのサンプルコードとまったく同じようにします。 clas

-3熱

1答えて

テキストを上に表示するには？（Python）

私はPythonの初心者ですが、おそらく簡単な質問ですが、私は本当に立ち往生して助けが必要です。私は.txtファイル内の別のものの上にテキストを表示するようにpythonを作りたい。ここに私のコードです x = ''.join(random.choice(string.ascii_uppercase + string.ascii_lowercase + string.digits) for _ i

-1熱

1答えて

単語の袋の中の単語を検索する

こんにちは私は単語の袋を作成したテキスト処理の分類子を構築しています - 単語が入力として最初に与えられれば、単語が袋に入っていることを確認する必要があります単語の2番目の問題は、単語の袋をファイルに保存する方法です。

1熱

1答えて

データフレーム上のPythonでの高速テキスト処理

私はPythonで電子商取引データを扱っています。私はそのデータをPythonでロードし、それをpandasデータフレームに変換しました。今では、不要な文字、ストップワード、ステミングなどを削除するなど、そのデータのテキスト処理を行いたいのですが、現在適用しているコードはうまくいきますが、時間がかかります。私は約200万行のデータを処理する必要があり、それを処理するには永遠にかかる。私は10,00

0熱

1答えて

Pythonのファイルは

は私のテキストファイルはが、私はこの（「NAME1」のような別のテキストファイルで、このファイルや店舗を読みたい NAME1 \ nの名2 \ nの NAME3の\ nのように見えます、 'name2'、 'name3'）をPythonで使えば誰でも助けてくれますか？

0熱

1答えて

エンロンの電子メールの本文から「転送されたメッセージ」のタイトルと不要なコンテンツを削除するにはどうすればよいですか？

私は、ストップワードを削除し、NLTKで文章に分割することで、これらの電子メールのテキストを処理できるように、エンロン電子メールのすべてのボディを1つのファイルに追加しようとしています。私の問題は、転送されたメッセージと返信されたメッセージで、私はそれらをきれいにする方法がわかりません。これは、これまでの私のコードです： import os, email, sys, re,nltk, ppri

1熱

1答えて

類似の行のテキストファイルをフィルタする

多くの行を含むテキストファイルでは、類似の単語で始まり一意ではない行をすべて抽出する必要があります。私は、同じ内容（重複する行）またはわずかに異なる内容（最初の単語の後ろ）を持つ可能性がある、同じものから始まる行を探します。私はこの例がそれを説明することを願っています（彼らは一意であるため、この例で廃棄 hungarian-american hungarian-german lied ms

2熱

2答えて

Pythonを使用してビッグテキストをオンラインで読む

50 GBのテキストファイルを読み込む必要があります。私はそのファイルで何らかの処理をしなければなりません。私はリモートサーバー上で処理をしているので、テキストファイルをダウンロードできません。 Pythonを使用して、ファイルの内容をそのURLを使用してストリーミングし、行ごとに読み込むことは可能ですか？

-1熱

2答えて

csv文書のテキストの処理

一部のCSV文書でテキスト解析を開始しています。しかし私のCSVファイルには興味のない単語がいくつかありますので、このCSVファイルを解析したpythonコードを作成して解析用に5単語以上含まれている文章のみを残したいと思いますどこで私のコードを作成し始めるべきか、助けてください。例：これは（Pythonの3.5で）動作するはず入力文書 enter image description here

1熱

1答えて

Pythonのdocx段落メソッドが異常な出力を与えています

私はワードファイルの処理にpython docxを使用しています。大きなファイル（50以上のページ）を使用している間、paragraph.textメソッドは、ファイルと矛盾する文字列を返します。 import docx document=Document(f) paratext=[] paragraphs=document.paragraphs for paragraph in parag