私はRuby Classifier library〜classify privacy policiesを使っています。私は、この図書館に組み込まれた簡単な語彙のアプローチが十分ではないという結論に達しました。私の分類精度を上げるために、個々の単語に加えてnグラムで分類子を訓練したいと思っています。niveのNaive Bayesクラシファイア
関連するnグラムを取得するためのドキュメントを前処理するためのライブラリがあるかどうか疑問に思っていました(句読点を正しく扱います)。
wordone_wordtwo_wordthree
それとも、これを行うことがより良い方法は、持っているライブラリとして、があります:一つの考えは、私が前処理文書可能性があり、同様にRubyの分類子に擬似ngramsを養うということでしたngramベースのNaive Bayes分類は、getgoからそれに組み込まれています。私はRuby以外の言語を使っています(もしPythonが必要ならば良い候補のように思えます)。
偉大な答え+1 – Yavar
NLTKは、Rubyが提供するものに比べて、多くの点で驚くようです。 Pythonが勝つ、ありがとう! – babonk
@babonk私の喜び。私はnltkが使用する喜びであり、信じられないほど強力であることを発見しました。D –