2016-11-22 5 views
2

私は、名前付きエンティティ認識を適用する170のオランダ文学小説のコーパスを持っています。オランダの既存のNERタガーの評価については、このコーパスの無作為標本の中で名前付きエンティティに手動で注釈を付けることを望んでいます。この目的のためにbratを使用します。手作業で注釈を付けたランダムサンプルは、NERタガーの評価で「ゴールドスタンダード」として機能します。私は文章レベルで自分のコーパスの無作為なサンプルを出力するPythonスクリプトを書いた。名前付きエンティティ認識のサンプルサイズゴールド標準コーパス

私の質問は、ランダムサンプルの理想的なサイズは、小説ごとの文章の量に関して何ですか?現時点では、小説ごとにランダムな100文章を使用しましたが、これはほぼ21626行(手作業で注釈を付けるためにたくさんあり、まぶたの作業環境が遅くなります)を含むかなり大きなランダムサンプルにつながります。

+0

NLPへようこそ。人間の注釈が非常に高価で面白くない場所です。 :) – erip

+0

:-)私がやっている実験の種類のサンプルサイズの基準はありませんか? – roelmetgevoel

+0

あなたが持っているエンティティタイプの数、ボキャブラリのサイズ(つまり、ドメインのサイズが小さいほどよくなる傾向があります)などに大きく依存します。多くの変数があります。 – erip

答えて

2

NB、実際の回答より前:私が見る最大の問題は、あなただけがツールwrtを評価できるということです。それら170冊だからこそ、あなたが評価したNERツールがそれらの本やそれに類するテキストにどれだけうまくいくかを教えてくれるでしょう。しかし、私はそれがはっきりしていると思います...

サンプルサイズについては、1本あたり12ダース以上のランダムな文章が必要であると推測します。サンプルサイズがすでに十分に大きいかどうかを確認する簡単な方法は次のとおりです。そのサブセットのすべてのツールを注釈付けして評価した文の半分だけをランダムに選択します(ブックごとに階層化されます)。これを数回行い、同じツールの結果が実行間で大きく異なるかどうかを確認します(たとえば、F-scoreを使用する場合は+/- 0.1以上)。重要な部分を検出する方法ツール間の違い)。分散が非常に大きい場合は、さらにランダムな文に注釈を付け続けます。数字が安定し始めると、あなたはいいですし、注釈を止めることができます。

+0

私はNERツールを訓練するために注釈付きサンプルを使用しません。私は現代のオランダの文学小説に適用された場合、無作為のサンプルを使用して、既存のNERツール(さまざまなトレーニングセット自体で訓練されている)を正確に評価します。これらの目的のために、小説ごとに(例えば)10文章のランダムなサンプルを使用するだけでも十分でしょうか? – roelmetgevoel

+1

しばらくお待ちください。このデータをNERツールの開発に使用するのではなく、既存のものを評価することは望ましくありませんか?ですから、NERのどのツールが170冊の書籍(そして似たような書籍)を分析するのに最適なツールであるかを知る必要があります。しかし、確かに、1700個のサンプルは、既存のシステムを評価するのに十分なものでなければなりません。 – fnl

+1

OPがNERツールを構築したくないことを認識した後で私の答えを更新しました。既存のものを評価するだけです(最初にそのポイントを逃しました...) – fnl

1

確かに、「理想的な」サイズは...全体コーパスだろう:)

結果は、類型の詳細度に相関させることになります。ただ、LOCをPERS、ORGが必要となる最小限のサイズが必要きめ細かいタイプ分類や完全な曖昧さ回避(リンク)についてはどうでしょうか?私は良いパフォーマンスが多くのデータ(検証には十分)を必要としないと思われますが、パフォーマンスの低下はより詳細なエラーの詳細な表示を必要とするはずです。

クロスバリデーションは標準的な方法論と見なされますが、しばしばコーパスの10%を使用して評価されます(ただし評価は10回行われます)。

さらに、古代の小説を扱う場合、おそらくレキシカルカバレッジの問題に直面するでしょう:多くの古い固有名詞は、利用可能なソフトウェア語彙リソースには含まれず、NERの正確さの重大な欠点です。したがって、何十年も何世紀にもわたってコーパスを分割し、この問題が演奏に及ぼす影響を評価するために複数の評価を行うことは良い考えです。

+0

明らかに全部のコーパスができません。 PERS、LOC、ORGのみを使用し、曖昧さ回避を実行しません。それはオランダの文学小説のための直接的な名前付き実体抽出の評価のためのものです。私は2013年に出版された小説で作業します。その点ではレキシカルカバレッジの問題はありません。ブラットは大きな文書サイズではパフォーマンスが非常に遅いので、今は小説ごとに10文のランダムサンプル(合計2280行)を試しています - これで十分でしょうか? – roelmetgevoel

+1

はい、私はあなたが受け入れ可能な性能を持っていて、分散が大きすぎないと@fnlで述べたように十分であると思います – eldams

関連する問題