2012-10-29 12 views
17

フランス語でいくつかの方法で処理する必要のあるテキストがあります。そのために、私が行う必要があります。フランス語のテキストを補間する

  • まず、その後、私の知る限り見ることができるように複数回

同じルートの処理を回避するためにそれらの単語をlemmatize言葉

  • にテキストをトークン化NLTKのwordnet lemmatizerは英語でしか動作しません。私はそれを "voudrais"とするなど、 "vouloir"を返すことのできるものが欲しい。私はアポストロフィのために正しくトークン化できません。どんな指針も大変ありがとうございます。 :)

  • 答えて

    11

    Hereは、nltk devの古いコメントです。

    nltk.stemモジュールは、現在、3つのステマー含まれています:ポーター ステマー、ランカスターのステマ、および正規表現ベースの ステマーをNLTKで最も先進的なステミング機能はすべて英語固有のもののように見えます。ポーターステマーとランカスターステマーは両方とも英語の に固有です。正規表現ベースのステマーは、 にカスタマイズして、任意の正規表現を使用できます。したがって、英語以外の言語の場合は、 シンプルなステマーをregexpステマーを使って書くことができるはずです。フランス語たとえば 、:

    from nltk import stem 
    stemmer = stem.Regexp('s$|es$|era$|erez$|ions$| <etc> ') 
    

    しかし、あなたは、言語固有の正規表現 自分自身を考え出す必要があると思います。より高度なステマーの場合、おそらく が新しいモジュールを追加する必要があります。 (これは、優秀な生徒 プロジェクトかもしれません。)正規表現ステマーの詳細については

    :-Edward

    http://nltk.org/doc/api/nltk.stem.regexp.Regexp-class.html

    :彼が与えるリンクが死んでいる、見ます現在のregexstemmerのドキュメントはhereです。

    最近追加されたのはsnowball stemmerですが、フランス語にもかかわらず可能です。

    ご覧のとおり、一部の結果は疑わしいものです。

    あなたが望んでいたものではありませんが、それはスタートだと思います。

    +0

    で作業することができます。私が実際にやったのは、句読点に単語をトークン化した後、残っている1文字の記事(たとえば、「lアンサンブル」の残りのlなど)をすべて削除したことです。私はその後、オンラインでいくつかの投稿によって参照されていたhttp://www.limsi.fr/Individu/anne/OLDlexique.txtでホストされている単語と対応する字句のリストを使用しました。 雪だるまステッカーはあまりにもうまくいっているようです、Junuxxありがとうございます。 :) – yelsayed

    2

    おそらくTreeTaggerを使用していますか?私がしようとしていないが、このアプリは、いや、それは、英語以外の言語のためのステマーはありません残念なのフランス

    http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
    http://txm.sourceforge.net/installtreetagger_fr.html

    +0

    gosh、treetaggersは監督されていない補題を与えますが、可能ならばそれから遠ざかるようお勧めします。 – alvas

    +0

    あなたは単語を形作るためにtreetaggerをどのように使用するのですか?私がtreetaggerで理解したことから、私たちは単にタグの単語をposすることができます。 – sel

    関連する問題