2011-01-23 12 views
1

英語のテキストやブックで、各単語がどれくらい使われているかを統計テーブルで確認できます。私たちは図書館の各テキスト/本の統計を収集することができます。 これらの統計情報を互いに比較する最も簡単な方法は何ですか?非常に統計的に類似したレキシコンを持つテキストのグループ/クラスタをどのように見つけることができますか?英語のテキストレキシコンの比較

答えて

1

まず、レキシコンを正規化する必要があります(つまり、レキシコンの両方にの語彙が同じであることを確認する必要があります)。ボキャブラリ)。

次に、Hellenger distanceまたはcosine similarityのような類似性メトリックを使用して、2つの辞書を比較できます。

Wekaなどの機械学習パッケージを調べるとよいでしょう。

This bookは、機械学習の優れた情報源です。役立つことがあります。

+0

を私は本を簡単に見て撮影したが、私はそれが字句のアルゴリズムに焦点を当てて見つけることができませんでした。私が間違っている? –

0

私はLucene(http://lucene.apache.org/java/docs/index.html)が提供しなければならないものを見て始めます。その後、機械学習の方法を使用し、http://en.wikipedia.org/wiki/Information_retrievalを見る必要があります。

0

あなたはKullback Leiblerの距離を考えます。参考のため、カバーとトーマスの18ページを参照してください。

Chapter 2, Cover and Thomas