2011-11-29 14 views
7

wekaのテキスト分類の属性またはクラスを表す方法を教えてください。どのような属性を使って分類できますか?単語の頻度または単語だけ? ARFF形式の構造はどうなりますか?その構造の例をいくつか教えていただけますか?wekaで分類するためのテキストの表現方法は?

ありがとうございます。最も簡単な選択肢の

答えて

11

一つは、のような2つのクラスの問題のためARFFファイルから開始することです。

 
@relation corpus 

@attribute text string 
@attribute class {pos,neg} 

@data 
'long text with words ... ',pos 

テキストは文字列型として表現されており、このクラスは、2つの値を持つ名目です。単語ベクトル表現にテキストを変換

  1. StringToWordVector

    次に、2つのフィルタを適用することができます。フィルターは単語ごとに属性を使用します。バイナリ/周波数表現、ステミングまたはストップワードを選択するためのパラメータを微調整することができます。最良の表現は問題に依存します。テキストが長くない場合は、通常バイナリ表現で十分です。

  2. Reorderクラスの属性を最後の位置に移動する場合、Wekaはそこにあるとみなします。

あなたはこのウェカのwikiページにデータを変換するための詳細情報や、他のアプローチを見つけることがあります。 http://weka.wikispaces.com/Text+categorization+with+WEKA

0

WEKAでは、独自の属性を選択することができます。この例では、クラスは2つしかなく、すべてのユニークワードが属性として使用されています。属性として単語の頻度を選択すると、その単語がテキストに2回出現する場合は「2」、そうでない場合は「0」、その単語が1回しか出現しない場合は「1」が割り当てられます。

ここには、.arff形式の例があります。

@RELATION anyrelation 

@ATTRIBUTE word1 
@ATTRIBUTE word2 
... 
@ATTRIBUTE wordn 
@ATTRIBUTE class {class1, class2} 

@DATA 
1,2,....,0,class1 
0,3,....,1,class2 
関連する問題