私は、テキスト文書の束(約140本)についてテキスト分析をしようとしています。各文書は、前処理して不必要な単語とストップワードを除去した後、約7000文(nlktの文トークナイザによって決定される)を有し、各文は平均約17語を有する。私の仕事は、それらの文書に隠されたテーマを見つけることです。LDAに関する提案
私は、トピックモデリングをやっについて考えています。しかし、私が持っているデータがLDAを介して意味のある結果を得るには十分であるのか、私ができることが他にあるのかは判断できません。
はまた、どのように私は別の文書にテキストを分割するのですか? 140文章(それぞれ約7000×17語)で十分ですか?あるいは私は各文を文書とみなすべきですか?しかし、各文書は平均してわずか17語しかありません。ツイートと同じように。
提案が参考になります。 ありがとうございます。
SVDとt-sneをなぜ使いたいのかよくわからないのですか?あなたはSVD自体を使用していますか? – user62198
SVDを使用すると、データを説明するn個のコンポーネントを選択できますが、可視化できる2次元または3次元の情報損失なしにそれらをさらに減らすことはできません。 –
一日の終わりに、カテゴリーは異なるバケットで「可視」にする必要があります。 –