2016-10-23 2 views
-5

私は2人のユーザー間のチャットからテキストを分類するために分類器を訓練しようとしています。後で、2人のユーザーの誰がX文/単語をよく言うかを予測できます。そこに行くために、私はチャットログからテキストを採掘し、単語の2つの配列UserA_wordsUserB_wordsで終わった。ユーザー分類に使用するチャットテキストデータの表現は何ですか?

この配列をnaiveBayesやSVMのような分類器に渡すためにはどのフォーマットで変換する必要がありますか?例:パスクラシファイアへの言葉の表現の袋?

+0

特定の分類タスクに使用するML表現を質問するのは、姉妹サイト[DataScience.SE]でオントピックになっています((実際のタイプミスの可能性があります) http://datascience.stackexchange.com)。そこに移行してください。 – smci

+0

これを保留にすることは建設的ではありません。DataScience.SEに移行するか、ここで開いてください。私の答えは、これは実際の答えがあることを示しています。 – smci

+0

@smci申し訳ありませんが、私はここで新しく、Data Science SEで同様の質問を投稿しましたが、どのように移行しますか?事前にありがとう – whiteTea

答えて

0

チャットテキストのユーザー分類に使用する必要があるML表現は何ですか。

bag-of-wordとword-vectorは、テキスト処理で一般的に使用される主な表現です。しかし、チャットのユーザ分類は、通常のテキスト処理タスクではなく、特定のユーザを示す告示機能を探す。 はここにいくつかです:

  • 文字長、ワード長、各コメント
  • タイピングスピードの文の長さ句読点の
  • 比(80で例えば17個の句読記号(ESPは、秒のタイムスタンプを持っている場合。)文字の= 80分の17)
  • 総額の比率数字
  • 空白文字の比率N-グラム(例えば、 l0ser、F ##、K、:-))のUnicodeの
  • 使用(絵文字、記号などの星)特定の句読点の
  • 比(例えばどのように多くの ''、 '!'、 '?'、「* '、'# ')
  • 単語数、統計的に異常なものはどれも
  • あなたが考えることができる他の何かは、これらの2人のユーザーにとって予期しているようです。
関連する問題