2015-01-07 8 views
5

私は請求書と請求書のコレクションを持っているので、テキストに文脈はありません。 私はそれらの請求書から人名を抽出したいと思います。 私はOpenNLPを試しましたが、私にはコンテキストがないので、訓練されたモデルの品質は良くありません。 最初の質問は次のとおりです。モデルをトレーニングするには、コンテキストなしの人名のみが含まれていますか?それが可能であれば、私が新しいモデルを構築する方法について私に良い記事を教えてもらえますか(私が読んだ記事のほとんどは、新しいモデルを構築するための手順を説明していませんでした)。構造化されていないテキストからの人物の抽出

人名(姓、名)が100,000を超えるデータベース名があるので、NERシステムが私のケースで動作しない場合(コンテキストがないため)、検索する最良の方法は何ですかそれらの候補者(私は他のすべての名字を持つすべての名字を検索しますか?)

ありがとうございます。

答えて

2

「文脈」に関して、あなたはあなたが文全体を持っていない、つまり前/次のトークンがないことを意味すると思います。この場合、あなたはかなり非標準のNERに直面します。あなたがトレーニングや評価目的で自分のコーパスを構築しなければならないことが分かっていない場合は、この特定の問題のソフトウェアまたはトレーニングデータが利用可能であることを認識していません。

データベースに実際にどのような割合の請求書名が存在するかによって、あなたのデータベースの名前がおそらく大きく役立ちます。おそらく、パターンの名前の文字レベルの形態に依存しなければならないでしょう(例えば、[1]のパターンを参照してください)。 SVMとしての標準的な機械学習を使用して、フィーチャー(データベース、モフォロジー、その他の請求情報)とソリューション(注釈付き実績の実際の名称)を備えたトレーニングセットを取得すると、ちょうど尋ねる)。

いくつかの他の提案:

  • あなたはおそらくも使用している他の法案の情報:会社名、位置、税は言及など
  • あなたはまた、AA選択的に進行することができる - 全ての紙幣が必要がある場合(正確に?)一人の名前を言いますと、他のすべてのテキスト(例:金額、税名、職位など)を除外することも、専用のモデルで請求書の全テキストのうち1つだけを名前として推測することもできます。

[1]という名前のエンティティの抽出のためのランキングアルゴリズム:後押しと投票しパーセプトロン(マイケル・コリンズ、2002)

2

を私はおそらく辞書ベースでそれを補強、その後、いくつかの正規表現で始めたいですアプローチ(すなわち、名前の大きなリスト)。

あなたが何をしても、それは完璧ではないので、心に留めておいてください。

関連する問題