0

イベントの説明テキストがいくつかあります。 イベントの入場料を引き出したいと思います。 入場料が条件付きであることがあります。NLPでの情報抽出のためのパターン認識または名前付きエンティティ認識

私が達成したいのは、入場料とその条件(利用可能な場合)を抽出することです。入場料+その条件を示すフレーズや文章全体を検索するのは大丈夫です。

注I:テキストはドイツ語で書かれています。注意:ほとんどの場合、文章は主にイベントチラシまたは広告であるため、完全ではありません。

NLPでこの問題のカテゴリはどのようになりますか?それは名前付きエンティティ認識であり、Apache openNLPを使用して独自のモデルをトレーニングすることで解決できますか? または、私は、ユースケース(入口、$、しかし、唯一まで、[番号] am/pm、...)で通常のキーワードを使ってパターンを検出する方が簡単かもしれないと考えました。

私を明るく照らしてください。

入力例: - 「午後10時前にクラブに入室すると、入場は無料となり、その後は6ドルになります。 - "今夜は午後11時から午前5時までパーティーに参加してください。入場料は8ドルですが、女児や学生は半額です。"

答えて

-2

名前付きエンティティ抽出部分に対してスタンフォードのCoreNLPをお試しください。それはあなたがお金の価値を選ぶのを助けることができるはずです、またドイツ語のために訓練されたモデルへのリンクもあります(https://nlp.stanford.edu/software/CRF-NER.shtml)。

情報が含まれている文全体を抽出することができれば、私はバイナリ文分類のアプローチをとることをお勧めします。おそらくngramsといくつかの名前付きエンティティ情報をフィーチャーとして使用することで、かなり遠くに行くことができます。つまり、ドキュメントを文章のようなチャンクに自動的に分割するパイプラインを構築する必要があるでしょう。 https://stanfordnlp.github.io/CoreNLP/として、文分割ツール(Stanford CoreNLPも提供)を試すことができます。これは今後のすべての作業の基礎となるため、結果が少なくともまともであることを確認したいと考えています。文章セグメンテーションツールを使用しなくても、文書そのものの構造によって分冊するのに十分な情報が得られるかもしれません。

このパイプラインを作成した後、大量のドキュメントから抽出した文に関連性があるか関連性がないかを注釈して、バイナリ分類タスクにすることができます。その後、そのデータセットに基づいてモデルをトレーニングします。最後に、目に見えないデータに適用する場合は、まず文セグメンテーションの方法を使用し、各文を分類します。

+0

ありがとうございます。あなたは、 "入り口"に関連する文章を見つける方法をもう少し詳しく説明できますか?あるいはモデルを訓練するべきですか? – user3234675

1

これは、広く構造学習の問題です。名前付きエンティティ認識/タグ付けとCoreference解決を組み合わせなければならないかもしれません。これらの記事と関連するgithubコードを読んでそこから取り出してください。ここでは、現時点でこれらのための最先端のツールの良い議論がありますhttps://www.reddit.com/r/MachineLearning/comments/3dz3fl/dl_architectures_for_entity_recognition_and_other/

希望に役立ちます。

関連する問題