2012-04-23 4 views
0

テキスト分類を行うとき、テキストが長いと、ナイーブなベイ分類を使用して非常に満足できるパフォーマンスが得られます。コンテキストが短いテキストに来るときしかし、TwitterのメッセージやStackOverflowの中に、質問内容のように、非常に悪い結果は精度、再現率、ROCのようなほぼすべての指標に、得られる短いテキストメッセージをパフォーマンスの長いテキストより効果的に分類する方法

...

されていますが、いくつかのこれらの短いテキストコンテンツを分類するのに役立つことができる実際的な提案ですか?

私はこれにはすばらしいと思います。

+0

あなたの質問を編集して、現在使用しているアルゴリズムやコードを表示してください。実装を改善する方法があるかもしれません – WhiteKnight

答えて

0

関連性を向上させることは、指数関数的に難しくなり、最終目標について考える必要があります。しかし、近づく方法の1つはメトリックを追加することです。メッセージの長さ、辞書のサイズ、記事のコンテキストなどのメトリクスを追加することです。

あなたがtwitterではなく長い記事を好むと仮定すると、長さのメトリックは記事に大きな重みを与えます。

辞書サイズは記事の長さに関連する時間がほとんどですが、コンテキストと密接に関連しています。つまり、特定のものに関連する記事は、その文脈で高いメトリックを持ちます。同じ記事では、一度にいくつかのことを論じます。

コンテキストを構築するには、類義語の辞書をそれらの間に距離を持つツリーのように構築する必要があります。例:ソフトウェアは電子機器に関連するコンピュータに関連しますが、ソフトウェアは電子機器に関連して緩いです。

解決策を提供するには、短い記事の単語の重さをすばやく解消することが必要です。

関連する問題