0
私はwekaのsvm(smo)を使ってテキストを分類したいと思います。私が持っているファイルには、いくつかのセンテンス(ペルシア語)とそのクラスを示す各センテンスの前にある単語が含まれています。質問は:これらの文をバイナリベクトルに変更して、これらのベクトルを入力としてwekaに渡すか、weka自体で "word to word vector"を選択して文をベクトルにするだけで十分ですか?wekaのsvmファイル形式
サンプルファイル:
https://www.dropbox.com/s/ohpyortve8jbwhe/shoor.arff?dl=0
これらの2つのオプションを試しましたか?それらのうちのいずれかが他よりもうまく動作するように見えますか(まったく動作しません)? – etov
@ etov、私は2番目を試しました。 (入力としての文)。答えを返しますが、それが正しいかどうかわかりません。私はどのような要因に基づいて言葉をベクトルに変えなければならないかに応じて、最初のものは何も考えていません。実際、どちらが科学的なのか分かりません。 – sara
Wekaには、あなたが望むことができるStringToWordVectorコンバーターがあります。これが科学的であるかどうかについては、むしろhttp://stats.stackoverflow.com – Sentry