2017-01-26 12 views
1

これまでemojiを使ってPOSタガーを使用しようとしたとき、それは未知のシンボル、小さなボックスとして現れました。 POS絵画館に絵文字を使用させる方法はありますか?絵文字はユニコード版と同じです。スタンフォードCoreNLPと絵文字?

答えて

2

あなたのコード、システム、およびスタンフォードCoreNLPコードで文字エンコーディングが正しい場合は、絵文字を正しく表現する必要があります。しかし、2つの根本的な問題が2つあります。

最初に、絵文字は1文字分長く、不定記事以外のものとしてタグ付けされる可能性は低いです。 'a'は英語です。スマートトークナイザは絵文字をよりよく理解するかもしれませんが、私はそれを疑っています。

さらに重要なのは、POSタガーがparts of speechを注釈することです。絵文字は言葉の一部ではありません。少なくとも、独立した新しいクラスのトークンですが、確かに文法的ではありません。

すべて...キャラクターコードがわかっています...既にタグが付けられています。

+0

彼らは小さな箱を表示している場合、チャンスはエンコードが同じではありませんです。ちょうど推測。 – Qix

+1

そして、オリジナルと出力端子の間のどこかが原因である可能性があります。 – gerowam

+0

非常に真です。/length – Qix

2

バージョン3.8.0以降、Stanford CoreNLPは、emojisをサポートしています。

Release notes.

+0

サポートemojisはどういう意味ですか?私はこの問題を持っています:https://stackoverflow.com/questions/46905716/stanford-chinese-segmentor-dont-handle-emojis-well – user697911

関連する問題