2012-01-27 7 views
2

与えられたテキスト(タイトル)で重要な単語の集合を取得するJavaライブラリがありますか?
EDITED:重要なことは、文章の主なアイデアを定義していることを意味します。 ありがとうございます。タイトルの重要な単語を取得するjava library

+6

「重要」を定義します。 – millimoose

+0

重要なのは、文章の主なアイデアを定義するものを意味します。 –

答えて

3

Apache Mahoutをご覧ください。

tf-idf modelの詳細については、説明したような場合によく使用されることもあります。

EDIT:TF-のIDFモデルの詳細:

TF-IDFモデルは、基本的に2つのことを言う:

  1. 用語は、あなたのデータに何度も表示された場合、それはおそらく重要です。 [tf]
  2. 世界で用語が何度も出現する場合は、そのデータの外観が期待されますが、それがまれであり、データに表示されている場合は非常に重要です[ idf]

tf-idfモデルは、この仮定を利用して、tf、idfの値に従って各用語の評価を与えます。
idf値を見つけるには、コレクションのインデックスを作成するか、検索エンジンAPIを使用して、結果の数に基づいて各用語の一般的な見積もりを計算することができます[エンジンによって返された数値は正確ではありません

2

Topic modelsこれは、ドキュメント(またはドキュメントのコレクション)で行うようにしてください。私はあなたが個々の文章で多くをすることができるとは思わない。

セマンティックパーサー(例:RelEx)を使用して、主要なサブジェクト/オブジェクト/などを取得しようとすることはできますが、まだそれほど単純ではありません。

あなたがしようとしていることのいくつかの例が役立ちます。 "主なアイデアを定義する"はまだかなり漠然としています - あなたはどのような文章を扱っていますか?

+0

私はRSSのサイエンスニュースのタイトルを取得し、タイトルを識別する単語が何であるかを特定したいと考えています。 –

2

あなたはタイトルで排他的に作業している考えると、私はかなりstop wordが重要であるではない任意の単語を想像するだろう。

おそらく、完全な吹き抜けのテキスト解析アルゴリズムではなく、基本的なストップワード除去アルゴリズムを探しているだけでしょうか?

このことがどれほど複雑か、「スマート」なのかだけによって決まります。

関連する問題