nltk

2熱

2答えて

データセット：不動産/土地機能の教師なし分類を含む df['bigram'] = df['Clean_Data'].apply(lambda row: list(ngrams(word_tokenize(row), 2))) df[:,0:1] Id bigram 1952043 [(Swimming,Pool),(Pool,in),(in,the),(the,roof),(roof,t

0熱

1答えて

NLTK：通常の文字列

に生の文字列を変換するには、私は生の文字列の代わりに\nの >>>from nltk.corpus import reuters >>>retail_article = reuters.raw('training/8173') >>>print (retail_article) "FRENCH GDP SHOULD RISE 2.3 PCT IN 1988 - MINISTRY\n Fre

0熱

2答えて

NLTKムービーレビューコーパス内のタグ

movie_reviewコーパスで最も一般的な15のコードを出力するには、次のコードがあります。 import nltk import random from nltk.corpus import movie_reviews documents =[] for category in movie_reviews.categories(): for fileid in movi

0熱

1答えて

は私がDFを持つデータフレーム

上のテキストのクリーンアップのパフォーマンスの向上しますextractFeatures()をpandas列に適用し、結果が新しい列を作成しています： df['cleanText'] = df['text'].apply(clean) 結果のDFは： id cleanText 1 good sentence 2 sentence number 3 third sentence ル

2熱

1答えて

中国語と英語の両方でテキストをトークン化すると、英語の単語が文字に間違って分割される

中国語と英語の両方を含むテキストをトークン化すると、英語の単語が文字に分割されます。次のコードを考えてみましょう：出力は哈佛大学的 M e l i s s a D e l lになります。この動作を変更するにはどうすればよいですか？

0熱

1答えて

速度（wmdistance）のためのGensimワードムーバーの距離関数の最適化

参考文と1000文の類似度の計算にはgensimwmdistanceを使用しています。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

1熱

1答えて

NLTKはトークン化しますが、名前付きエンティティを分割しません。

私は単純な文法に基づいたパーサーに取り組んでいます。このために、まず入力をトークン化する必要があります。私のテキストでは、ニューヨーク、サンフランシスコなど、多くの都市が現れています。私がちょうど標準のnltk word_tokenizerを使用すると、これらの都市はすべて分割されます。 from nltk import word_tokenize word_tokenize('What are

0熱

2答えて

nltkをインポートできません

コーパスをダウンロードするプログラムでnltkをインポートします。しかし、私はエラーを取得しています： Traceback (most recent call last): File "C:/Users/Android.DESKTOP-S6P9R3V.001/Desktop/ud120-projects-master/blah.py", line 1, in <module>

4熱

2答えて

どのように私は、文字列のラインを持っている

意味のある単語にテキストの行を変換しますword_tokenizeですが、変換できませんでした。コンテキスト：PDFファイルをテキストファイルに解析していますpdfコンバータから戻ってきて、pdfをテキストに変換しています。私はPDFminerを使っています。Python

0熱

1答えて

トークンからのNLTK再構成文

NLTKを使用してセンテンスをトークン化しましたが、今はそのセンタンスを文字列に再構築したいと思います。私はドキュメントを見てきましたが、これを行うには明らかなワットが見えません。これはまったく可能ですか？ tokens = [token.lower() for token in tokensCorrect]