nltk

    -1

    2答えて

    特定の用語のDFを取得する関数を探しています(コーパス内にある単語がいくつあるのかを意味します)。しかし、関数hereを見つけることができません。ページには、tf, idf, and tf_idfの値を取得する機能しかありません。私は特にDF​​のみを探しています。私は、ドキュメントから以下のコードをコピーし matches = len([True for text in self._texts

    1

    1答えて

    中国語の単語リストを持っている場合:like reference = ['我'、 '是'、 '好'、 '人'] 、仮説= [「我」、「是」、「善良的」、「人」。私は中国語翻訳のために:nltk.translate.bleu_score.sentence_bleu(参照、仮説)を使用できますか?それは英語と同じですか?日本人はどうですか? 私は英語のような単語リスト(中国語と日本語)があればいいです

    1

    1答えて

    文法でカバーされていない単語のリストをプログラムに返す方法を教えてください。 とValueError:「『ミシェル』、 『バナナ』」:文法は、入力単語の一部をカバーしていない、それだけでエラーメッセージが表示され import nltk # Define the cfg grammar. grammar = nltk.CFG.fromstring(""" S -> N

    0

    1答えて

    NLTKでfdist.plot()を使用して私の頻度分布のプロットを生成する運がありません。 bgr = nltk.bigrams(words_filtered) fdist2 = nltk.FreqDist(bgr) plot2 = fdist2.plot() plot2.show() # cause Python to be unresponsive plot2.savefig("pl

    0

    1答えて

    私は非ダイアログテキストを文章にトークン化できますが、文に引用符を追加すると、NLTKトークナイザはそれらを正しく分割しません。例えば、予想通り、この作品: import nltk.data tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') text1 = 'Is this one sentence? This is s

    0

    1答えて

    だから、テキストファイルからすべてのストップワードを削除しようとしている。問題は、単語ごとにストップワードを削除することです。 def remove_stopwords(input): stop_words = set(stopwords.words('english')) filtered_words = [word for word in input if not word

    0

    3答えて

    コーパスにタグを付けるので、すべてのストップワードにNOTRELATEDというラベルを付ける必要があります。私はそれをPythonでやろうとしましたが、Pythonで新しく動作しませんでした。 stop_words = set(stopwords.words('english')) for line in word_tokenize(input_file): if stop_

    0

    1答えて

    を返します。 私はJupiterノートブックで実行し、エラーメッセージが表示されます。

    0

    1答えて

    私はテキストファイルからNPチャンクを抽出しようとしています。私はそれを行っています。しかし、NPチャンクワードを単独で印刷したいのですが。 import nltk from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize file =open("l2.txt","r") text=fil

    -2

    1答えて

    私はいくつかの助けを使用することができます&をPYTHONに新しいです から抽出文:私は、リスト内で繰り返し同じキー値を持つ(辞書を持って : これは単なるサンプルです list_dummy = [{'a': 1, 'b':"The house is great. I loved it.",'e':"loved,the"}, {'a': 3, 'b': "Building is white in