2

LibSVMを使用してテキストの分類を行うことに興味があります。どのように用語/単語を数値データに変換することをお勧めしますか?LibSVMはそれを理解できますか?LibSVMと非数値データ

ありがとうございました!

答えて

2

テキスト分類では、ドメインで使用されている単語のヒストグラムを作成する傾向にあり、2つの単語の組み合わせを見てヒストグラムに配置することがあります(これはバイグラムと呼ばれます)。しかし、それは本当にあなたのデータとあなたの目的にかかっています。

+0

私の問題は機能の選択ではなく、数字である必要があるLibSVMフォーマットへの実際のエンコーディングです。彼らのウェブサイトでは、テキスト分類の例を挙げて、プロービングについてコメントしています。「2項の頻度を使用し、各インスタンスを単位長に正規化します。 「バイナリターム周波数」とは何ですか? – pns

+0

2項の頻度は、記事に用語が表示されているかどうかにかかわらず、バイナリヒストグラムに似ています。あらかじめ定義された一連の用語を持っていれば、その用語の記事をスキャンし、出力は1/0ベクトルになります。 – carlosdc

+0

あなたの権利は、実際の機能(文字列)がどこに保存されるかを見つけるのが難しかったです。しかしファイルフォーマットを見てみましょう: '[id、] label fid1:fval1 fid2:fval2 ....'、そのfid。 ありがとう! – pns