テキストマイニングに基づいて予測モデルを作成しようとしています。私は自分のモデルにいくつの機能を設定すべきか混乱しています。私は分析の中で1000の文書を持っています(したがってコーパスは約700になります)。コーパス内の用語の数は約2 000であるので、文書の数を超える(P >> N)。非常に多くの機能を持っていることには意味がありますか?テキストマイニングの機能の数
HashingTFメソッドの機能の数は、コーパス内の用語の総数よりも高くする必要がありますか?または私はそれを小さくする必要があります(512の機能のように)
私はちょっと混乱しています。
あなたが言ったように、私はさまざまな機能を試してみます。私はバイグラムについても考えました。それはその問題をたくさん変えますか?より多くの機能(p = 2048など)を使用できますか? –
バイグラムが違いを生むかどうかは、解決しようとしている問題によって異なります。通常、n >> p(次元の呪い)が必要です。あなたはL1-regで大きなpを使うことができます。データセットが小さい場合、それらをすべて試すことができます。 – Aayush