2017-05-19 2 views
1

特定のタイプの情報を抽出するための情報抽出のコーパスを構築していますが、そのエンティティに注釈を付ける最も良い方法を決定しようとしています。私は、IEERコーパスがSGMLタグ要素ENAMEX,NUMEX、およびTIMEXタグを使用していることを発見しました(ここで説明されています:http://itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/ne_task.html)。この文書は1997年に書かれたので、私はこのSGMLベースの手法を使うのは古くなっていると推測しています。 OWL、RDF、またはXMLを使用します。情報抽出コーパスに注釈を付けるための業界標準が最近ありますか?通常、情報抽出コーパスに注釈を付けるために使用されるマークアップ言語

+1

私はXML –

答えて

2

フィールドには標準化が不十分だと言えますが、単一のフォーマットである必要があるかどうかは不明です。私のアドバイスは、オプションを見て、あなたのデータとエンコーディングしている情報に最も適したオプションを選択することです。

bratは、言語リソースに注釈を付けるという新しい古典です。独自のスタンドオフ注釈標準を持っています。 Anaforaツールもあります。これには独自のXMLベースの標準もあります。 UIMAベースのツールは、通常、CAS標準を使用します(ただし、不正なドキュメント)。ネイティブGATE XML formatも見てください。

名前付きエンティティタイプのように、エンコードする情報が単純な場合は、CoNLLなどの表形式にすることもできます。

要件に合致しないものがあれば、それらに適合するものを実装するだけです。

0

NLTKブック(chapter 07, paragraph: Representing Chunks: Tags vs Trees)は述べている:

最も普及しているファイルの表現がIOBタグを使用しています。

及び説明に進む:

[...]各トークンは、3つの特別なチャンクタグの1つ、I(内側)、O(外部)、またはB(開始)でタグ付けされています。 [...] BタグとIタグにはチャンクタイプの接尾辞が付いています。 B-NP、I-NP

We PRP B-NP 
saw VBD O 
the DT B-NP 
little JJ I-NP 
yellow JJ I-NP 
dog NN I-NP 

ウィキペディアはIOB format上のページがあります。

スタンフォードNLP apparentlyもサポートしています。

spaCyは少し異なるBILUO formatを使用します。

関連する問題