与えられたテキスト(タイトル)で重要な単語の集合を取得するJavaライブラリがありますか?
EDITED:重要なことは、文章の主なアイデアを定義していることを意味します。 ありがとうございます。タイトルの重要な単語を取得するjava library
答えて
Apache Mahoutをご覧ください。
tf-idf modelの詳細については、説明したような場合によく使用されることもあります。
EDIT:TF-のIDFモデルの詳細:
TF-IDFモデルは、基本的に2つのことを言う:
- 用語は、あなたのデータに何度も表示された場合、それはおそらく重要です。 [tf]
- 世界で用語が何度も出現する場合は、そのデータの外観が期待されますが、それがまれであり、データに表示されている場合は非常に重要です[ idf]
tf-idfモデルは、この仮定を利用して、tf、idfの値に従って各用語の評価を与えます。
idf値を見つけるには、コレクションのインデックスを作成するか、検索エンジンAPIを使用して、結果の数に基づいて各用語の一般的な見積もりを計算することができます[エンジンによって返された数値は正確ではありません
Topic modelsこれは、ドキュメント(またはドキュメントのコレクション)で行うようにしてください。私はあなたが個々の文章で多くをすることができるとは思わない。
セマンティックパーサー(例:RelEx)を使用して、主要なサブジェクト/オブジェクト/などを取得しようとすることはできますが、まだそれほど単純ではありません。
あなたがしようとしていることのいくつかの例が役立ちます。 "主なアイデアを定義する"はまだかなり漠然としています - あなたはどのような文章を扱っていますか?
私はRSSのサイエンスニュースのタイトルを取得し、タイトルを識別する単語が何であるかを特定したいと考えています。 –
あなたはタイトルで排他的に作業している考えると、私はかなりstop wordが重要であるではない任意の単語を想像するだろう。
おそらく、完全な吹き抜けのテキスト解析アルゴリズムではなく、基本的なストップワード除去アルゴリズムを探しているだけでしょうか?
このことがどれほど複雑か、「スマート」なのかだけによって決まります。
- 1. 単語の同義語を取得
- 2. 単語の文脈を取得する
- 3. ワンクリックで単語を取得
- 4. Mac OSでJavaのUser〜/ Libraryパスを取得する方法
- 5. 単語のリストから最長の単語を取得
- 6. Array Listのランダムな単語を取得する方法は?
- 7. Java:文字列の最後の単語を取得する最も簡単な方法
- 8. Javaで非JavaのWindowsのタイトルを取得
- 9. 要素の子のタイトルを取得する
- 10. ヤフーファイナンス - 会社を取得する方法重要な統計
- 11. RandomClassifier Scikitで重要な機能を取得する
- 12. Javaでラッパークラスの型を取得する簡単な方法
- 13. 文字列を単語に分割し、C#で異なる単語を取得する方法は?
- 14. LuceneのSpanNearQueryから一致する単語を取得する
- 15. Jqueryはテキストエリアからランダムな単語を取得します
- 16. カーソル下にある単語の色を取得する
- 17. パターンの後に特定の単語を取得する
- 18. リストインデックスの最初の単語を取得するpython
- 19. Prolog:合計X音節の単語のリストを取得する
- 20. NSMenuItemのNSMenuItemをタイトルで取得する
- 21. YouTube動画のタイトルを取得する
- 22. googleクロムウィンドウのタイトルを取得する
- 23. Webformのタイトルを取得するには?
- 24. イベントハンドラでUIButtonのタイトルを取得する
- 25. simplehtmldomタイトルのhrefを取得する
- 26. PDFBox - 単語の位置を取得するだけでなく、文字を取得する
- 27. Javaでデータベースメタデータを取得する最も簡単な方法は?
- 28. Javaの単語を比較する
- 29. wordnetを使用して単語の見出し語を取得する
- 30. Lucene - simpleAnalyzer - 一致する単語を取得するには?
「重要」を定義します。 – millimoose
重要なのは、文章の主なアイデアを定義するものを意味します。 –