私は、名前付きエンティティ認識を適用する170のオランダ文学小説のコーパスを持っています。オランダの既存のNERタガーの評価については、このコーパスの無作為標本の中で名前付きエンティティに手動で注釈を付けることを望んでいます。この目的のためにbratを使用します。手作業で注釈を付けたランダムサンプルは、NERタガーの評価で「ゴールドスタンダード」として機能します。私は文章レベルで自分のコーパスの無作為なサンプルを出力するPythonスクリプトを書いた。名前付きエンティティ認識のサンプルサイズゴールド標準コーパス
私の質問は、ランダムサンプルの理想的なサイズは、小説ごとの文章の量に関して何ですか?現時点では、小説ごとにランダムな100文章を使用しましたが、これはほぼ21626行(手作業で注釈を付けるためにたくさんあり、まぶたの作業環境が遅くなります)を含むかなり大きなランダムサンプルにつながります。
NLPへようこそ。人間の注釈が非常に高価で面白くない場所です。 :) – erip
:-)私がやっている実験の種類のサンプルサイズの基準はありませんか? – roelmetgevoel
あなたが持っているエンティティタイプの数、ボキャブラリのサイズ(つまり、ドメインのサイズが小さいほどよくなる傾向があります)などに大きく依存します。多くの変数があります。 – erip