2016-12-26 4 views
0

私はwekaのsvm(smo)を使ってテキストを分類したいと思います。私が持っているファイルには、いくつかのセンテンス(ペルシア語)とそのクラスを示す各センテンスの前にある単語が含まれています。質問は:これらの文をバイナリベクトルに変更して、これらのベクトルを入力としてwekaに渡すか、weka自体で "word to word vector"を選択して文をベクトルにするだけで十分ですか?wekaのsvmファイル形式

サンプルファイル:

https://www.dropbox.com/s/ohpyortve8jbwhe/shoor.arff?dl=0

+0

これらの2つのオプションを試しましたか?それらのうちのいずれかが他よりもうまく動作するように見えますか(まったく動作しません)? – etov

+0

@ etov、私は2番目を試しました。 (入力としての文)。答えを返しますが、それが正しいかどうかわかりません。私はどのような要因に基づいて言葉をベクトルに変えなければならないかに応じて、最初のものは何も考えていません。実際、どちらが科学的なのか分かりません。 – sara

+0

Wekaには、あなたが望むことができるStringToWordVectorコンバーターがあります。これが科学的であるかどうかについては、むしろhttp://stats.stackoverflow.com – Sentry

答えて

0

それはWEKAに「単語ベクトルに文字列を」選択と連携し、が、それは1000個の、最も頻繁に単語や他の特徴に応じたベクトルに文章を変更する方が良いでしょう。それはより速く動作します。