名前付きエンティティ認識プロジェクト用のトレーニングデータセットを作成する必要があります。名前付きエンティティ認識用データセット
は例えば、私はテキストを持って
"Last year, I was in London where I saw Tom"
トレーニングデータは
"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw
<ENAMEX TYPE="NAME">Tom</ENAMEX>"
でなければなりません手でそれを行うには簡単ですが、それは、データの数が多い時間がかかります。私はオープンセットを使用することはできません。私は小さな訓練データセットを持っていますが、私はそれを拡張すべきです。
小さなトレーニングデータセットを拡張して、より大きなトレーニングデータセットを作成するにはどうすればよいですか?準備が整ったパッケージやオープンプロジェクトがありますか?あるいは、異なる方法を提案していますか?