フランス語のテキストを補間する

フランス語でいくつかの方法で処理する必要のあるテキストがあります。そのために、私が行う必要があります。フランス語のテキストを補間する

まず、その後、私の知る限り見ることができるように複数回

同じルートの処理を回避するためにそれらの単語をlemmatize言葉

にテキストをトークン化NLTKのwordnet lemmatizerは英語でしか動作しません。私はそれを "voudrais"とするなど、 "vouloir"を返すことのできるものが欲しい。私はアポストロフィのために正しくトークン化できません。どんな指針も大変ありがとうございます。 :)

出典

2012-10-29 yelsayed

Hereは、nltk devの古いコメントです。

nltk.stemモジュールは、現在、3つのステマー含まれています：ポーターステマー、ランカスターのステマ、および正規表現ベースのステマーをNLTKで最も先進的なステミング機能はすべて英語固有のもののように見えます。ポーターステマーとランカスターステマーは両方とも英語のに固有です。正規表現ベースのステマーは、にカスタマイズして、任意の正規表現を使用できます。したがって、英語以外の言語の場合は、シンプルなステマーをregexpステマーを使って書くことができるはずです。フランス語たとえば、：
from nltk import stem 
stemmer = stem.Regexp('s$|es$|era$|erez$|ions$| <etc> ') 
しかし、あなたは、言語固有の正規表現自分自身を考え出す必要があると思います。より高度なステマーの場合、おそらくが新しいモジュールを追加する必要があります。（これは、優秀な生徒プロジェクトかもしれません。）正規表現ステマーの詳細については

：-Edward

注

http://nltk.org/doc/api/nltk.stem.regexp.Regexp-class.html

：彼が与えるリンクが死んでいる、見ます現在のregexstemmerのドキュメントはhereです。

最近追加されたのはsnowball stemmerですが、フランス語にもかかわらず可能です。

ご覧のとおり、一部の結果は疑わしいものです。

あなたが望んでいたものではありませんが、それはスタートだと思います。

出典

2012-10-30 00:07:39 Junuxx

で作業することができます。私が実際にやったのは、句読点に単語をトークン化した後、残っている1文字の記事（たとえば、「lアンサンブル」の残りのlなど）をすべて削除したことです。私はその後、オンラインでいくつかの投稿によって参照されていたhttp://www.limsi.fr/Individu/anne/OLDlexique.txtでホストされている単語と対応する字句のリストを使用しました。雪だるまステッカーはあまりにもうまくいっているようです、Junuxxありがとうございます。 :) – yelsayed

おそらくTreeTaggerを使用していますか？私がしようとしていないが、このアプリは、いや、それは、英語以外の言語のためのステマーはありません残念なのフランス

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
http://txm.sourceforge.net/installtreetagger_fr.html

出典

2014-02-25 16:25:27 Klemm

gosh、treetaggersは監督されていない補題を与えますが、可能ならばそれから遠ざかるようお勧めします。 – alvas

あなたは単語を形作るためにtreetaggerをどのように使用するのですか？私がtreetaggerで理解したことから、私たちは単にタグの単語をposすることができます。 – sel

フランス語のテキストを補間する

答えて

関連する問題