2009-02-27 12 views
6

ステミングは、タグ付けシステムに必要なものです。私はおいしいを使用して、私はタグを管理して剪定する時間がありません。私は私のブログでもう少し注意していますが、完璧ではありません。私は、ステミングが含まれていれば、はるかに機能的である(ユーザにとって有益な)組み込みシステム用のソフトウェアを書いている。例えばステミング - コード例またはオープンソースプロジェクト?

の解析
解析
パーサ
はすべて、私はにそれらを入れているものは何でもシステムに同じことを意味すべき。

理想的には、どこかBSDライセンスステーマーがありますが、もしそうでなければ、このための一般的なアルゴリズムとテクニックを知るにはどうすればいいですか?

BSDステマーとは別に、オープンソースのライセンスを取得しているステーマーはいますか?

-Adam

+0

誰かがhttp://snowball.tartarus.org/を回答(ヒント、ヒント)として追加する必要があります... –

+0

Hehe、strippergram –

+0

しかし、私は他のものを見てみたいと思います。 。 –

答えて

1

Luceneでステマーを持って、私は信じている(とIIRC、それはあなたがしたい場合は、あなた自身のものを使用することができます)。

EDIT:ちょうどチェックされ、Lucenceは、私が知る限り、オープンソースステミングライブラリであるSnowballサイトを参照しています。私はそれが結合Pythonの使用してきました

5

はPythonで書かれnltk toolkitをチェックしてください。それは非常に機能的なstemmerを持っています。

関連する問題