movie_reviewコーパスで最も一般的な15のコードを出力するには、次のコードがあります。 import nltk
import random
from nltk.corpus import movie_reviews
documents =[]
for category in movie_reviews.categories():
for fileid in movi
上のテキストのクリーンアップのパフォーマンスの向上しますextractFeatures()をpandas列に適用し、結果が新しい列を作成しています: df['cleanText'] = df['text'].apply(clean)
結果のDFは: id cleanText
1 good sentence
2 sentence number
3 third sentence
ル
私は単純な文法に基づいたパーサーに取り組んでいます。このために、まず入力をトークン化する必要があります。私のテキストでは、ニューヨーク、サンフランシスコなど、多くの都市が現れています。私がちょうど標準のnltk word_tokenizerを使用すると、これらの都市はすべて分割されます。 from nltk import word_tokenize
word_tokenize('What are
NLTKを使用してセンテンスをトークン化しましたが、今はそのセンタンスを文字列に再構築したいと思います。 私はドキュメントを見てきましたが、これを行うには明らかなワットが見えません。これはまったく可能ですか? tokens = [token.lower() for token in tokensCorrect]