2017-12-15 10 views
0

私は、テキスト文書の束(約140本)についてテキスト分析をしようとしています。各文書は、前処理して不必要な単語とストップワードを除去した後、約7000文(nlktの文トークナイザによって決定される)を有し、各文は平均約17語を有する。私の仕事は、それらの文書に隠されたテーマを見つけることです。LDAに関する提案

私は、トピックモデリングをやっについて考えています。しかし、私が持っているデータがLDAを介して意味のある結果を得るには十分であるのか、私ができることが他にあるのかは判断できません。

はまた、どのように私は別の文書にテキストを分割するのですか? 140文章(それぞれ約7000×17語)で十分ですか?あるいは私は各文を文書とみなすべきですか?しかし、各文書は平均してわずか17語しかありません。ツイートと同じように。

提案が参考になります。 ありがとうございます。

答えて

0

私は同様の行に取り組んできました。このアプローチは、そのような文書を300件まで扱うことができます。しかし、それをより高いスケールにするには、sparkを使用してアプローチを再現する必要があります。ここで

それが行く: 1)TF-IDFの行列を準備します。用語用語ベクトルでドキュメントを表します。なぜ最初に知らないテーマがいくつか用意されている必要があるため、LDAを使用しないでください。もし意味があるよりも洗練されたければ、word2Vec、GloVe、Google News Vectorsなどを試してください。

2)上記のTF-IDFから潜在意味空間を用意してください。 LSAの作成はSVDアプローチを使用します(1つはカイザー基準を選択して次元数を選択できます)。

私たちはなぜ2)をしますか?

A)TF-IDFは非常にまばらです。計算上高価なステップ3(tSne)。 b)このLSAを使用してセマンティック検索エンジンを作成することができます

あなたのTF-IDFサイズが非常に小さいのに2)迂回することはできますが、これらの文書でセマンティック検索をするような他のニーズはありません。 3次元で文書を表すため

3)使用tSne(T-確率的に最も近い埋め込み)。ユークリッドの座標から球状のプロットを準備する。

4)は、クラスタの最適数を見つけるために繰り返しK-手段を適用します。

一度決定されました。各カテゴリの単語の雲を準備します。あなたのテーマを持ってください。

+0

SVDとt-sneをなぜ使いたいのかよくわからないのですか?あなたはSVD自体を使用していますか? – user62198

+0

SVDを使用すると、データを説明するn個のコンポーネントを選択できますが、可視化できる2次元または3次元の情報損失なしにそれらをさらに減らすことはできません。 –

+0

一日の終わりに、カテゴリーは異なるバケットで「可視」にする必要があります。 –

関連する問題