5

私は医学テキスト用の半自動注釈ツールを開発しています。注釈のためにRDFトリプレットを見つけるのは完全に迷っています。半自動注釈ツール - RDFトリプレットを見つける方法

現在、NLPベースのアプローチを使用しようとしています。私はすでにStanford NERとOpenNLPを調べましたが、どちらも病名抽出モデルはありません。

私の質問は *病名を抽出するための新しいNERモデルを作成するにはどうすればよいですか? OpenNLPまたはStandford NERsの助けを得ることができますか? *テキストからRDFトリプレットを抽出するには、NLP以外の方法がありますか?

助けていただけたら幸いです!ありがとう。

答えて

4

私はOpenNLPとLingPipeの両方に必要なものに似た何かをしました。 LingPipeの正確な辞書ベースのチャンクが私のユースケースに十分に対応していて、それを使用していました。ここで利用できるドキュメント:地名辞典/辞書のアプローチはあなたのために十分ではない場合、あなたはあなた自身を作成し​​てみてくださいすることができ、

http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

はあなたがここに小さなデモを見つけることができますOpenNLPにはトレーニングモデル用のAPIもあります。ドキュメントは次のとおりです。http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

自然言語からRDFトリプルを抽出することは、名前付きエンティティを識別することとは異なる問題です。 NERは関連した、おそらく必要なステップですが、十分ではありません。自然言語からRDFステートメントを抽出するには、ステートメントのサブジェクトやオブジェクトなどのエンティティを識別する必要があるだけでなく、しかし、あなたはまた、それらのエンティティの動詞および/または関係を特定する必要がありますまたそれらをURIにマップする必要があります。

+0

mmmmmmm。ok私は既にOpenNLPトレーニングツールを調べましたが、私の質問は です。本来、人の名前のために設計された病気の名前を発見するためにモデルを訓練することはできますか? –

+0

あなたはそれが良いものとして試してみることができます。どんなツールを使うにしても、それを訓練するためのデータセットが必要になるでしょう(地名辞典/辞書によるアプローチを使わない限り)。したがって、同じデータセットを使用して異なるシステムを訓練し、それらを比較することができます。 OpenNLPトレーニングAPIは、実験を行うのに費用がかからないほど簡単です。しかし、トレーニングデータセットが必要です。 – castagna

+0

はい。私はトレーニング/テストデータセットを少し見てきましたが、私はPubMedデータベースのように思われる無料のものをいくつか見つけました。他のトレーニングデータセットについて知っていますか? ありがとうございました! –

関連する問題