スタンフォードPOSタガーが中国語のテキストをタギングしない

私はスタンフォードPOSタガーを使用していますが、モデルパラメータを変更しても英語が正しくタグ付けされていますが、（簡体字）中国語を認識していないようです。私は何か見落としたことがありますか？スタンフォードPOSタガーが中国語のテキストをタギングしない

私がダウンロードされ、ここから最新のフルバージョンを展開しました：「サンプルINPUT.TXT」に http://nlp.stanford.edu/software/tagger.shtml

その後、私はinputedてきたサンプルテキストを。

这是一个测试的句子。这是另一个句子。

は、それから私は、単に

./stanford-postagger.shモデル/中国distsim.taggerサンプルを実行します-put.txt

予想される出力は、各単語に品詞を付けることですが、その代わりに文字列全体を1つの単語として認識します：

モデル/中国distsim.taggerからタガーモデル/中国distsim.tagger

読書POSタガーモデルから

ロードデフォルトのプロパティを...完了しました[3.5秒]。

這是一個測試的句子。這是另一個句子。＃NR毎秒30.30言葉で

タグ1つのワード。

何か助けていただきありがとうございます。

2013-04-18 Ryan Rapp

また、ファイルと設定がUTF-8であることを確認しました。私はまた、さまざまなサンプルテキストで試してみました。 –

最後に、トークン化/セグメント化がこのposタグャーに含まれていないことを認識しました。言葉はスペースを区切られたものでなければなりません。

みんなありがとう：中国の最大エントロピー単語分割に興味のある方は、こちらを利用できる別のパッケージがあります。

2013-04-18 21:14:31

はい、POSタガーに渡す前にセグメンタに渡す必要があります。 – alvas

答えて