0
コアテキストを解決する必要がありますが、入力テキストがチャットの会話から抜粋されているため、現在使用されているツールの精度(スタンフォードCorenlp)は2人の対話のために低くなります。チャットの会話のCoreference解決の精度を上げるにはどうすればよいですか?
コアテキストを解決する必要がありますが、入力テキストがチャットの会話から抜粋されているため、現在使用されているツールの精度(スタンフォードCorenlp)は2人の対話のために低くなります。チャットの会話のCoreference解決の精度を上げるにはどうすればよいですか?
これは、あなたの入力が事前にトレーニングされたCorenlpモデルとは異なるドメインにあるというドメイン適応の問題です。
この問題に取り組む最も簡単な方法は、スタンフォードCorenlpを使用する前に入力を正規化することです(twitter正規化ツール(http://www.cs.cmu.edu/~ark/TweetNLP/など)を使用するなど)。正規化は少しでも役立ちますが、問題を完全に解決することはできません。
さらに多くのリソースとお金がある場合は、データをラベル付けして自分のモデルをトレーニングするためにクラウドソーシングを使用できます。