名前付きエンティティ認識用データセット

名前付きエンティティ認識プロジェクト用のトレーニングデータセットを作成する必要があります。名前付きエンティティ認識用データセット

は例えば、私はテキストを持って

"Last year, I was in London where I saw Tom"

トレーニングデータは

"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw 
<ENAMEX TYPE="NAME">Tom</ENAMEX>"

でなければなりません手でそれを行うには簡単ですが、それは、データの数が多い時間がかかります。私はオープンセットを使用することはできません。私は小さな訓練データセットを持っていますが、私はそれを拡張すべきです。

小さなトレーニングデータセットを拡張して、より大きなトレーニングデータセットを作成するにはどうすればよいですか？準備が整ったパッケージやオープンプロジェクトがありますか？あるいは、異なる方法を提案していますか？

出典

2017-08-22 angel-a

まず、まだお使いにならない場合は、bratのようなツールを使用して注釈付けを高速化してください。

これまでのところ1つの方法でしか使用されていないトークンをマークしているように見えるので、それらのリストを作成して自動注釈することができます。たとえば、Londonは常にLondonのすべてのインスタンスを<ENAMEX TYPE="LOCATION">London</ENAMEX>に置き換えることができる場所です。トルコや中国（We ate turkey sandwiches off china plates.）のように、これが機能しない場合は注意してください。

ベータ版のProdigyというプロジェクトがありますが、モデルを地面から降ろすために設計されていますが、まだ試してみる機会はありませんでしたが、それは一見価値があるはずです。

出典

2017-08-23 05:55:10 polm23

名前付きエンティティ認識用データセット

答えて

関連する問題