2016-04-02 11 views
-1

StringToWordVectorとは何ですか?私が知っているのは、文字列属性を複数の属性に変換するということだけです。しかし、これを行う利点と、StringToWordVectorクラスのオブジェクトがFilteredClassifierのフィルタとしてどのように機能するのでしょうか?どのようにフィルタになりましたか?WekaのStringToWordVector

答えて

0

StringTOWordVectorは、文字列をWOrdTokenizerクラスを使用してNグラムにフィルタリングするwekaのフィルタクラスです。これは、分類器にN-gramとして文字列を提供するのに役立ちます。トークン化だけでなく、ストップワードを削除する、TFIDFで単語を重み付けする、出力単語数を表示するのではなく、刈り込み率、ステミング、単語の小文字変換などの機能も提供します。 http://weka.sourceforge.net/doc.dev/weka/filters/unsupervised/attribute/StringToWordVecing.htmlにあります。基本的には基本的な機能を提供しており、トレーニング前の要件に従ってトレーニングセットを微調整するのに役立ちます。

ただし、訓練と一緒にテストを実行したい人は、列車の互換性を保証するために、バッチフィルタまたはフィルタ分類器を使用する必要があります。&テストセット。これは、列&をStringToWordVectorを介して個別にテストに渡すと、列&テストセットの異なる語彙が生成されるためです。どの技法をバッチフィルタリングから除外するか決定するには&フィルタリングされた分級機は、Nihil Obstatの投稿に従います。http://jmgomezhidalgo.blogspot.in/2013/01/text-mining-in-weka-chaining-filters.html

希望します。