nltk

    2

    2答えて

    データセット:不動産/土地機能の教師なし分類を含む df['bigram'] = df['Clean_Data'].apply(lambda row: list(ngrams(word_tokenize(row), 2))) df[:,0:1] Id bigram 1952043 [(Swimming,Pool),(Pool,in),(in,the),(the,roof),(roof,t

    0

    1答えて

    に生の文字列を変換するには、私は生の文字列の代わりに\nの >>>from nltk.corpus import reuters >>>retail_article = reuters.raw('training/8173') >>>print (retail_article) "FRENCH GDP SHOULD RISE 2.3 PCT IN 1988 - MINISTRY\n Fre

    0

    2答えて

    movie_reviewコーパスで最も一般的な15のコードを出力するには、次のコードがあります。 import nltk import random from nltk.corpus import movie_reviews documents =[] for category in movie_reviews.categories(): for fileid in movi

    0

    1答えて

    上のテキストのクリーンアップのパフォーマンスの向上しますextractFeatures()をpandas列に適用し、結果が新しい列を作成しています: df['cleanText'] = df['text'].apply(clean) 結果のDFは: id cleanText 1 good sentence 2 sentence number 3 third sentence ル

    2

    1答えて

    中国語と英語の両方を含むテキストをトークン化すると、英語の単語が文字に分割されます。次のコードを考えてみましょう: 出力は哈佛大学 的 M e l i s s a D e l lになります。この動作を変更するにはどうすればよいですか?

    0

    1答えて

    参考文と1000文の類似度の計算にはgensimwmdistanceを使用しています。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

    1

    1答えて

    私は単純な文法に基づいたパーサーに取り組んでいます。このために、まず入力をトークン化する必要があります。私のテキストでは、ニューヨーク、サンフランシスコなど、多くの都市が現れています。私がちょうど標準のnltk word_tokenizerを使用すると、これらの都市はすべて分割されます。 from nltk import word_tokenize word_tokenize('What are

    0

    2答えて

    コーパスをダウンロードするプログラムでnltkをインポートします。 しかし、私はエラーを取得しています: Traceback (most recent call last): File "C:/Users/Android.DESKTOP-S6P9R3V.001/Desktop/ud120-projects-master/blah.py", line 1, in <module>

    4

    2答えて

    意味のある単語にテキストの行を変換しますword_tokenizeですが、変換できませんでした。 コンテキスト:PDFファイルをテキストファイルに解析していますpdfコンバータから戻ってきて、pdfをテキストに変換しています。私はPDFminerを使っています。Python

    0

    1答えて

    NLTKを使用してセンテンスをトークン化しましたが、今はそのセンタンスを文字列に再構築したいと思います。 私はドキュメントを見てきましたが、これを行うには明らかなワットが見えません。これはまったく可能ですか? tokens = [token.lower() for token in tokensCorrect]