2017-07-19 4 views
0

テキストマイニングに基づいて予測モデルを作成しようとしています。私は自分のモデルにいくつの機能を設定すべきか混乱しています。私は分析の中で1000の文書を持っています(したがってコーパスは約700になります)。コーパス内の用語の数は約2 000であるので、文書の数を超える(P >> N)。非常に多くの機能を持っていることには意味がありますか?テキストマイニングの機能の数

HashingTFメソッドの機能の数は、コーパス内の用語の総数よりも高くする必要がありますか?または私はそれを小さくする必要があります(512の機能のように)

私はちょっと混乱しています。

答えて

0

ユニグラムだけをフィーチャーとして使用することを前提とすると、p <が必要です。 (これが何を意味するか知っているように見えるので、ここでソースを引用していません。)最後に

、P < n個を達成するために、あなたは、カウント> = kの

  1. 選択機能のどちらかでした。さまざまなkの性能を測定し、最良のkを選択するか、または

  2. はL1正規化を使用してすべての機能を使用します。

あなたが言及したようにハッシングを使用する場合ので、あなたは以下にも512以上の機能の数を設定する必要があります - 512はまだあまりにも偏っている

  1. N = 700およびp =。
  2. 通常、重要な単語は非常に少数です。あなたのケースでは50未満である場合もあります。ハッシュバケット数= {10、20、50、100、500、1000}を試して、最適なものを選ぶことができます。

幸運!

+0

あなたが言ったように、私はさまざまな機能を試してみます。私はバイグラムについても考えました。それはその問題をたくさん変えますか?より多くの機能(p = 2048など)を使用できますか? –

+0

バイグラムが違いを生むかどうかは、解決しようとしている問題によって異なります。通常、n >> p(次元の呪い)が必要です。あなたはL1-regで大きなpを使うことができます。データセットが小さい場合、それらをすべて試すことができます。 – Aayush

関連する問題