英語のテキストやブックで、各単語がどれくらい使われているかを統計テーブルで確認できます。私たちは図書館の各テキスト/本の統計を収集することができます。 これらの統計情報を互いに比較する最も簡単な方法は何ですか?非常に統計的に類似したレキシコンを持つテキストのグループ/クラスタをどのように見つけることができますか?英語のテキストレキシコンの比較
1
A
答えて
1
まず、レキシコンを正規化する必要があります(つまり、レキシコンの両方にの語彙が同じであることを確認する必要があります)。ボキャブラリ)。
次に、Hellenger distanceまたはcosine similarityのような類似性メトリックを使用して、2つの辞書を比較できます。
Wekaなどの機械学習パッケージを調べるとよいでしょう。
This bookは、機械学習の優れた情報源です。役立つことがあります。
0
私はLucene(http://lucene.apache.org/java/docs/index.html)が提供しなければならないものを見て始めます。その後、機械学習の方法を使用し、http://en.wikipedia.org/wiki/Information_retrievalを見る必要があります。
0
あなたはKullback Leiblerの距離を考えます。参考のため、カバーとトーマスの18ページを参照してください。
関連する問題
- 1. 英語の環境で中国語の文字列を比較するには?
- 2. Pythonでの二重比較の略語
- 3. Javaの単語を比較する
- 4. 2つの英数字の文字列を比較する
- 5. 速度の比較 - 手続き型の言語とOOの比較
- 6. 文字列の比較バイナリ(&英数字ではない)
- 7. 中国語または日本語の文字列の比較
- 8. アメリカ英語またはイギリス英語Java
- 9. 英語のMySQLデータベース?
- 10. SQLのプラス英語
- 11. 英語のプラグマ:legacy?
- 12. 英国/アメリカ英語の変換
- 13. TFS/VSの比較/比較ツール
- 14. javascriptゲームの英語の単語のリスト
- 15. 英語の単語の分類
- 16. Androidシミュレータの英語以外の言語
- 17. SourceTree 2.2.3 - 英語
- 18. シンプルランダム英語センテンスジェネレータ
- 19. モバイルアプリケーション向けのHTML5などのクロスプラットフォーム言語との比較
- 20. リセットエラーメッセージの言語を英語に
- 21. 英語の単語と文章辞書
- 22. 英語からデンマーク語ロケールの問題
- 23. 非英語での用語抽出
- 24. スキーマの比較
- 25. TimeSpan.Compareの比較
- 26. JSONArraysの比較
- 27. ボタンの比較
- 28. arraylistの比較
- 29. Bashの比較
- 30. のJava - 比較
を私は本を簡単に見て撮影したが、私はそれが字句のアルゴリズムに焦点を当てて見つけることができませんでした。私が間違っている? –