名前(String)とその名前に関連付けられた文字列の配列を持つweka trainingファイル(arff)が必要です。これを実行すると、分類子がそれらの文字列と名前を関連付けるようになりますテキスト。この作業では、文字配列であるwekaの属性を作成するにはどうすればよいですか?または、これを行うための代替手段がありますか?wekaの文字列配列属性
例えば
を(私はナイーブベイズ分類器を使用しています): Deepikaシャー、貪欲な読者は、面白い、かわいい
をだから私はDeepikaシャーで上記の文字列のいずれかとの文を持っている場合それは、Deepika Shahについての文章として分類されるべきです。
EDIT: 文中の単語やフレーズを使って、文章を名前として分類する必要があります。だから私は名前に関連付けられた文字列のセットと、それらが関連付けられている名前を与えています。分類器は、そのクラスをその文から見つけるべきである。あるいは、文章から特徴を抽出した後(特徴を抽出したと仮定します)。
あなたの名前は文字列の配列を予測するクラスですか?あなたは明確なアイデアを得るために、少なくとも一例を挙げてください。 – drp
はい、その名前がクラスです。 – zoozoofreak
次に、StringToWordVectorフィルタを使用してください(文字列配列は "あなたは素敵な男"というような言葉の配列です)。 StringToWordvectorクラスでは、String配列(1つ以上の単語からなる文)をN-gramで変換することができます。ここでは、Tokenizerクラスを通してNの任意の値を指定できます。文字列配列を文字列属性n arffファイルとして指定する必要があります。それをarffファイルの引用符で囲んだ値( 'あなたは素敵な男')に含めてください。あなたがこのコメントを理解できなかったら私は答えのセクションで詳細にアンサーを提供することを私に教えてください。 – drp