私はスタンフォードPOSタガーを使用していますが、モデルパラメータを変更しても英語が正しくタグ付けされていますが、(簡体字)中国語を認識していないようです。私は何か見落としたことがありますか?スタンフォードPOSタガーが中国語のテキストをタギングしない
私がダウンロードされ、ここから最新のフルバージョンを展開しました:「サンプルINPUT.TXT」に http://nlp.stanford.edu/software/tagger.shtml
その後、私はinputedてきたサンプルテキストを。
这是一个测试的句子。这是另一个句子。
は、それから私は、単に
./stanford-postagger.shモデル/中国distsim.taggerサンプルを実行します-put.txt
予想される出力は、各単語に品詞を付けることですが、その代わりに文字列全体を1つの単語として認識します:
モデル/中国distsim.taggerからタガーモデル/中国distsim.tagger読書POSタガーモデルから
ロードデフォルトのプロパティを...完了しました[3.5秒]。
這是一個測試的句子。這是另一個句子。#NR毎秒30.30言葉で
タグ1つのワード。
何か助けていただきありがとうございます。
また、ファイルと設定がUTF-8であることを確認しました。私はまた、さまざまなサンプルテキストで試してみました。 –