nltk

-1熱

2答えて

特定の用語のDFを取得する関数を探しています（コーパス内にある単語がいくつあるのかを意味します）。しかし、関数hereを見つけることができません。ページには、tf, idf, and tf_idfの値を取得する機能しかありません。私は特にDFのみを探しています。私は、ドキュメントから以下のコードをコピーし matches = len([True for text in self._texts

1熱

1答えて

BLEUのスコア：中国語でbleuのスコアを計算するのにnltk.translate.bleu_score.sentence_bleuを使用できますか

中国語の単語リストを持っている場合：like reference = ['我'、 '是'、 '好'、 '人'] 、仮説= [「我」、「是」、「善良的」、「人」。私は中国語翻訳のために：nltk.translate.bleu_score.sentence_bleu（参照、仮説）を使用できますか？それは英語と同じですか？日本人はどうですか？私は英語のような単語リスト（中国語と日本語）があればいいです

1熱

1答えて

CFG文法のレキシコンに含まれていない単語を取得するにはどうすればよいですか？

文法でカバーされていない単語のリストをプログラムに返す方法を教えてください。とValueError：「『ミシェル』、『バナナ』」：文法は、入力単語の一部をカバーしていない、それだけでエラーメッセージが表示され import nltk # Define the cfg grammar. grammar = nltk.CFG.fromstring(""" S -> N

0熱

1答えて

NLTK fdist.plot（）

NLTKでfdist.plot（）を使用して私の頻度分布のプロットを生成する運がありません。 bgr = nltk.bigrams(words_filtered) fdist2 = nltk.FreqDist(bgr) plot2 = fdist2.plot() plot2.show() # cause Python to be unresponsive plot2.savefig("pl

0熱

1答えて

NLTKダイアログで文章を文章にトークン化

私は非ダイアログテキストを文章にトークン化できますが、文に引用符を追加すると、NLTKトークナイザはそれらを正しく分割しません。例えば、予想通り、この作品： import nltk.data tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') text1 = 'Is this one sentence? This is s

0熱

1答えて

私の関数remove_stopwords。単語のすべてのストップワードを削除する

だから、テキストファイルからすべてのストップワードを削除しようとしている。問題は、単語ごとにストップワードを削除することです。 def remove_stopwords(input): stop_words = set(stopwords.words('english')) filtered_words = [word for word in input if not word

0熱

3答えて

ファイル内の特定の文字列セットに文字列を追加する方法

コーパスにタグを付けるので、すべてのストップワードにNOTRELATEDというラベルを付ける必要があります。私はそれをPythonでやろうとしましたが、Pythonで新しく動作しませんでした。 stop_words = set(stopwords.words('english')) for line in word_tokenize(input_file): if stop_

0熱

1答えて

NLTKのpos_tagモジュールは、詳細は上記にあるLookupErrorが

を返します。私はJupiterノートブックで実行し、エラーメッセージが表示されます。

0熱

1答えて

NPのチャンクワードの印刷

私はテキストファイルからNPチャンクを抽出しようとしています。私はそれを行っています。しかし、NPチャンクワードを単独で印刷したいのですが。 import nltk from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize file =open("l2.txt","r") text=fil

-2熱

1答えて

Pythonの段落

私はいくつかの助けを使用することができます&をPYTHONに新しいですから抽出文：私は、リスト内で繰り返し同じキー値を持つ（辞書を持って：これは単なるサンプルです list_dummy = [{'a': 1, 'b':"The house is great. I loved it.",'e':"loved,the"}, {'a': 3, 'b': "Building is white in