2011-11-19 9 views
5

料理レシピ、特に食材(おそらく後の準備)で自然言語処理を実行したいと思います。基本的に私は自分のPOSタグセットを作成して原料ラインの意味を判断するのを狙っています。例えばカスタマイズされたタグを使ってトレーニングセットにタグを付ける手

、成分の一つであった場合: 3/4カップ(軽く充填した)フラットリーフパセリの葉が、である、私はタグがリストされている成分とquanitityを表現したい

分割通常は数字の後に測定単位が続きます。例:

3 \ NUM-QTY/\ FRACTION4 \ NUM-QTYカップ\ N-MEAS(軽く\ ADVパック\ VD)[フラットリーフ\ ADJパセリ\ N] \ INGREDIENT leaves \ N、 VD

タグが見つかりましたhere

私はいくつかのことについて確信がもてない:

  1. 私は、カスタムタグを使用する必要があり、またはIは、既存のタグ付けを使用した後、ポストのタグ付け処理のいくつかの並べ替えを行うべきか?
  2. 私がカスタムタグを使用している場合は、トレーニングテキストを作成して原料リストを手渡してすべてをタグ付けする最良の方法ですか?

私はこの言語処理が非常に具体的であるため、該当するセットでタグャーを訓練することが有益だと思っていますが、どうやって進めるのかは分かりません。

ありがとうございます!

答えて

3

pattern.searchライブラリを使用します。

pythonパターンライブラリは、基数タグ(CD)を含む多くのタグ[1]をサポートしています。

枢機卿にタグを付けたら、分数は「枢機卿/枢機卿」または「枢機卿/枢機卿」のようなものです。

数量に関しては、調理量の分類法を構築する必要があります。 Pythonパターンライブラリもlemmatization [2]をサポートしています。

私はpattern.search [2]を使って、あなたのデータに合ったConstraintを構築し、それを使ってテキストのパターン検索を行うことができると思います。

[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search

+0

素晴らしいもの - ありがとうございます。私はすでにタクソノミーを書いているので、パターン・サーチにプラグ・インする必要があります。 – abroekhof

関連する問題