Pythonライブラリを使用してテキストのメイントピックを抽出する

Pythonを使用してテキストのメイントピック（またはメイントピックの集合）を取得したいと考えています。Pythonライブラリを使用してテキストのメイントピックを抽出する

ここまでは、nltkとscikit-learnのAPIを見て、そのような方法があるかどうかを調べました。しかし、私が見つけた最も良いことは、この説明であるhttp://www.nltk.org/book/ch07.htmlです。これは、メイントピックを抽出する方法については言及していません。

この機能を提供するPythonライブラリはありますか？

出典

2016-04-01 octavian

Latent Dirichlet Allocationをscikit-learnにバンドルしていますが、テキストの「主なトピック」はありません。複数のトピックについての文章があります。

HereはLDAの紹介です。 LDAは、ある確率で単語が生成されるトピック分布の混合物として文書をモデル化する。遭遇する可能性のあるトピックの種類を事前に指定する必要はありません.LDAが自動的にそれを実行します。より詳細には

、LDAは、一定の確率で言葉を吐き出す話題の混合物などの書類を表し：ブログ記事から引用

私はには、リンクされました。これは、文書は次の方法でを生産していることを前提としています。各ドキュメントを書くとき、あなたは

（ポアソン分布にに従って、例えば）単語数Nがあります文書を決定します。

ドキュメントのトピック混合を選択してください（固定されたKトピックのディリクレ分布に基づいて）。たとえば、上記の2つの食べ物とかわいい動物のトピックがあると仮定すると、 1/3食べ物と2/3 かわいい動物。

することにより、文書内の各単語のw_iを生成します。

まずあなたは上記のをサンプリングした多項分布に応じて（トピックを選んで、たとえば、あなたは/ 1で食品のトピックを選ぶかもしれません3の確率と2/3の確率でかわいい動物の話題）。（トピックの多項分布に従う）ワード自体を生成にトピックを使用

。たとえば、フードトピックを選択した場合、は30％の確率で「ブロッコリー」、15％のの確率で「バナナ」という単語を生成します。文書の収集のために、この生成モデルを仮定し

、LDAは、コレクションを生成していると思われるトピックのセットを見つけるために文書から後戻りしようとします。

出典

2016-04-01 14:25:29

Pythonライブラリを使用してテキストのメイントピックを抽出する

答えて

関連する問題