nltk

0熱

1答えて

中のマトリックス私のコードは次のようになります： from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer train_set = "i have a ball", "he is good", "she pl

0熱

2答えて

PythonとnGrams

ここでは、基本的なテキスト解析のためにPythonに完全に移行しようとしています。私はASTER ngramの出力を、Pythonでnltkや他のモジュールを使って複製しようとしています。 1から4のnグラムでこれを行うことができる必要があります。csvへの出力。 DATA：必要に応じ Unique_ID, Text_Narrative OUTPUT： Unique_id, ngram(to

1熱

1答えて

SnowballStemmer for Russian words list

私はSnowballStemmerを1つの単語（私の場合は、ロシア語のもの）で実行する方法を知っています。次のことをやって： from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 私は[「Василий」、「Г

0熱

1答えて

任意の文字列入力ではトークン化されません

私はリンクから抽出した文字列について以前に投稿しました。 a="Any Random text at all , nothing freaking works" sentences = nltk.sent_tokenize(a) が、私は一貫してもらう：私のコマンドラインは非常に簡単です：だから簡単な例を試してみました、私はstr.(a)、a.split、a=a[0]を試してみました Ty

1熱

1答えて

文字列を辞書からの値で置き換えるコードが必要

これは、ステミングに辞書を適用する方法です。 d={'nada.*':'nadas', 'mila.*':'milas'} 私はこのコードをstemmトークンに書きましたが、それはTOO SLOWを実行するので、終了する前に停止しました。私はそれが問題だと思います.Dictが大きく、トークンがたくさんあるからです。したがって、コードをnormalyで実行できるように、私はどのように私のステム辞書

1熱

1答えて

Nltkは単一のパラメータに基づいて分類します

NaiveBayesClassifierを使用して、スマートホームの一部の領域で費やされた時間を分類しようとしています。私のトレーニングデータは、次のようになります。 classifier = nltk.NaiveBayesClassifier.train(training_data) start_date = datetime.strptime('2010-11-19 00:00', '%

1熱

2答えて

NLTK - はAttributeError：モジュールのNLTKは、「いいえ属性 'データ'

を持って、私は数日間、私のコードでnltkを使用しますが、私はimport nltkしようとすると、今、私はエラーを取得する： File "C:\Users\Nada\Anaconda\lib\site-packages\nltk\corpus\reader\plaintext.py", line 42, in PlaintextCorpusReader sent_tokenizer=nltk.

2熱

1答えて

フレーズNLTK WordNetの中で見つかりましたが、見つからなかった

これはおそらくダムですが、私はwn.synsets('wheeled vehicle')を経由して「輪車」のような言葉を見つけるように見えることはできません（wnがfrom nltk.corpus import wordnet as wn経由で作成）---は空の配列を返しますが、Iしかし、それを見つけることができますprinceton wordnetweb online search 私は行方不明

1熱

1答えて

Python：これは、文字列のリストを比較しソートするのに非効率的な方法ですか？

私はAとBの2つの文字列リストを持っています。Aの各文字列に対して、Bのすべての文字列と比較して最も類似したものを選択したいと思います。私が使用している比較関数は、I found on this questionというカスタムコサイン類似度測定値です。ここではそれがどのように動作するかです： import nltk, string from sklearn.feature_extraction.

2熱

2答えて

スタンフォードRegexNERをNLTKで使用するには？

NLTKのスタンフォードの助けを借りて名前エンティティを抽出する方法を知っています。ただし、RegexNERも適用する必要があります。 Javaでのアプリケーションは簡単でスタンフォードはhereの例を提供しています。しかし、NLTKでどのように使用できるかを説明する情報源は見つかりませんでした。あなたの考えや意見を分かち合うと感謝しています。