2017-01-20 8 views
0

注釈を付ける記事があるとします。私たちが文書を本当に長い文として入力した場合、Stanfordは、文書のすべての文をループしてその結果を集めるのではなく、1つの長い文に注釈を付けることとは何か異なりますか?nlp-スタンフォードOpenNLPの文と文の違い?

EDIT:テストを実行しました.2つのアプローチが2つの異なるNERセットを返すようです。私は間違っているかもしれませんが、それは確かに面白い面白いです。なぜこれが起こるのか不思議です。

答えて

0

あなたはスタンフォードCoreNLP(Apache OpenNLPとは対照的)を意味するのですか?

SentenceDocumentの間のCoreNLP Simple APIの主な違いはトークン化です。 Sentenceは、たとえ句読点があっても、テキスト全体を強制的に1つのセンテンスとみなします。 Documentは、最初にテキストを文のリストにトークン化し、各文に注釈を付けます。

構成員パーサーのような注釈者にとって、非常に長い文章は、注釈を付けるのに非常に長い時間がかかります。また、同義語は文章ではなく文書上でのみ機能することに注意してください。

+0

私はスタンフォードのバージョンを意味します。それが私が疑ったものです。異なる解釈が与えられると、アルゴリズムはそれらを異なる意味で扱わなければならず、おそらく異なる結果が説明される。 – twang

+0

正規の(または対話型)coreNLPシステムで文書をどのように使用できますか?コアレンス解析を強制するために、すべての文章を1つの超長距離で実行するだけで十分ですか? – user855443

+0

デフォルトでは、corenlpは注釈を付けたすべてのファイルをドキュメントとして扱います。私は、対話型コンソールの各行も文書として扱われると信じています。 –

関連する問題