0

私は、フォーマットされていないスパースなSMSメッセージのデータセットを持っています。トピックモデリングを使用して、各トピックの確率を確率各メッセージのトピックを整理またはランク付けするトピック。代替ソリューションとして私が考えているのは、自分のデータセットに手作業でラベルを付け、Naiive Bayesなどの教師付き分類アルゴリズムを使用することです。SMSメッセージからトピックを抽出する

enter image description here

私は

  1. です直面しています課題:ここ はまばらで、私はトピックモデルがうまく機能しなかったと仮定理由ですので、スパムコンテンツが含まれている私のSMSメッセージのサンプルですこれは正しい考え方(分類を選択するか?)または これは管理されていない問題またはトピックのモデリングですか?

    データセットを準備する方法
  2. :トレーニングデータセットのラベルまたはすべての可能なカテゴリとして1つのカテゴリ(1 列以上)

  3. と各メッセージには、これはマルチラベルまたはマルチクラス分類問題

  4. です

答えて

1

トピックが何であるか分かっている場合は、監督のNaive Bayesを使用してください。教師なし学習は、クラス発見のために使用することができる。

サンプルに複数のトピックを割り当てることは問題ではありません。

Naive Bayesは、確率が最も高いトピックに基づいてサンプルにラベルを割り当てます。当然ながら、複数のトピックを割り当てるために、x個の可能性が高い確率(おそらくしきい値付き)を使用することができます。

+0

正しいことを確認する私が手動でデータにラベルを付ける場合は、トレーニングに1つ以上のラベルを付ける必要がありますか?あなたが言うように、私は最高のxトピックを使用するためにNaiive Bayesにハックを使用することができますか? – user3379762

+0

私はデータセットのコピーを上に貼り付けて、それがどのようにフォーマットされていないかを確認しました。トピックモデリングを使用しないことを選択してもいいですか?最高のもの – user3379762

関連する問題