2017-09-06 1 views
1

私は「アメリカ」と言いましょう。私は文書全体が「アメリカ」かどうかを知りたいのですか? 「USA」という言葉は、文書内で100回または1000回のように言えるかもしれませんが、その日の終わりまでに文書は中国について話しているかもしれません。Pythonはテキスト関係のライブラリを提供していますか?

私はPythonでセンチメント分析ライブラリを使いましたが、ドキュメントがその単語を肯定的、否定的、または中立的な方法で記述した場合にのみ、これらのライブラリが返されます。

単語の言葉の数、単語とその単語の単語の類似度はカウントできますが、全体としての単語が上記の単語かどうかを判断する方法はまだ分かりません。

これを行うためのPythonにはライブラリがありますか、またはAPIはありますか?

+0

チェックトピックモデリング:https://textacy.readthedocs.io/en/latest/ – MedAli

+0

@MedAliをありがとう、私がかかりますそれを見てください。 – codeDojo

+0

このリンクに記載されているコードは便利だと思います。このコードを使用して、単語頻度が最も高い1つの文章内のテキストをサマライズします。 https://github.com/assafelovic/nlp_url_summarizer –

答えて

1

このための完全なソリューションライブラリはありません。あなたはおそらく、ステミングと分析という言葉にNLTKのようなものを使用したいと思うでしょう(http://www.nltk.org)。ステムミングは次の通りです: "フェラーリ - >スポーツカー - >自動車 - >輸送"、これは単語の "基本"概念を見ることができます。

次に、ドキュメントが何であるかを正確に判断するために、ある種のTF/IDF分析をしたいと思うでしょう。これは、どの単語が重要であるかを判断するのに役立ちます(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)。

TF/IDFの良いチュートリアルでは、ここで見ることができます:ここでhttp://stevenloria.com/finding-important-words-in-a-document-using-tf-idf/

+0

ありがとう、私は見てみましょう! – codeDojo

関連する問題