2017-08-22 5 views
0

名前付きエンティティ認識プロジェクト用のトレーニングデータセットを作成する必要があります。名前付きエンティティ認識用データセット

は例えば、私はテキストを持って

"Last year, I was in London where I saw Tom" 

トレーニングデータは

"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw 
<ENAMEX TYPE="NAME">Tom</ENAMEX>" 

でなければなりません手でそれを行うには簡単ですが、それは、データの数が多い時間がかかります。私はオープンセットを使用することはできません。私は小さな訓練データセットを持っていますが、私はそれを拡張すべきです。

小さなトレーニングデータセットを拡張して、より大きなトレーニングデータセットを作成するにはどうすればよいですか?準備が整ったパッケージやオープンプロジェクトがありますか?あるいは、異なる方法を提案していますか?

答えて

0

まず、まだお使いにならない場合は、bratのようなツールを使用して注釈付けを高速化してください。

これまでのところ1つの方法でしか使用されていないトークンをマークしているように見えるので、それらのリストを作成して自動注釈することができます。たとえば、Londonは常にLondonのすべてのインスタンスを<ENAMEX TYPE="LOCATION">London</ENAMEX>に置き換えることができる場所です。トルコや中国(We ate turkey sandwiches off china plates.)のように、これが機能しない場合は注意してください。

ベータ版のProdigyというプロジェクトがありますが、モデルを地面から降ろすために設計されていますが、まだ試してみる機会はありませんでしたが、それは一見価値があるはずです。

関連する問題