フランス語でいくつかの方法で処理する必要のあるテキストがあります。そのために、私が行う必要があります。フランス語のテキストを補間する
- まず、その後、私の知る限り見ることができるように複数回
同じルートの処理を回避するためにそれらの単語をlemmatize言葉
フランス語でいくつかの方法で処理する必要のあるテキストがあります。そのために、私が行う必要があります。フランス語のテキストを補間する
同じルートの処理を回避するためにそれらの単語をlemmatize言葉
Hereは、nltk devの古いコメントです。
nltk.stemモジュールは、現在、3つのステマー含まれています:ポーター ステマー、ランカスターのステマ、および正規表現ベースの ステマーをNLTKで最も先進的なステミング機能はすべて英語固有のもののように見えます。ポーターステマーとランカスターステマーは両方とも英語の に固有です。正規表現ベースのステマーは、 にカスタマイズして、任意の正規表現を使用できます。したがって、英語以外の言語の場合は、 シンプルなステマーをregexpステマーを使って書くことができるはずです。フランス語たとえば 、:
from nltk import stem stemmer = stem.Regexp('s$|es$|era$|erez$|ions$| <etc> ')
しかし、あなたは、言語固有の正規表現 自分自身を考え出す必要があると思います。より高度なステマーの場合、おそらく が新しいモジュールを追加する必要があります。 (これは、優秀な生徒 プロジェクトかもしれません。)正規表現ステマーの詳細については
:-Edward
注
http://nltk.org/doc/api/nltk.stem.regexp.Regexp-class.html
:彼が与えるリンクが死んでいる、見ます現在のregexstemmerのドキュメントはhereです。
最近追加されたのはsnowball stemmerですが、フランス語にもかかわらず可能です。
ご覧のとおり、一部の結果は疑わしいものです。
あなたが望んでいたものではありませんが、それはスタートだと思います。
おそらくTreeTaggerを使用していますか?私がしようとしていないが、このアプリは、いや、それは、英語以外の言語のためのステマーはありません残念なのフランス
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
http://txm.sourceforge.net/installtreetagger_fr.html
で作業することができます。私が実際にやったのは、句読点に単語をトークン化した後、残っている1文字の記事(たとえば、「lアンサンブル」の残りのlなど)をすべて削除したことです。私はその後、オンラインでいくつかの投稿によって参照されていたhttp://www.limsi.fr/Individu/anne/OLDlexique.txtでホストされている単語と対応する字句のリストを使用しました。 雪だるまステッカーはあまりにもうまくいっているようです、Junuxxありがとうございます。 :) – yelsayed