2011-10-29 11 views
1

テキスト(記事)(例:スポーツ、経済)、文字列を選択したいと思います。関数similar_text()などとの最良の方法があるかどうかを知りたいと思います。私はテキストを比較する必要があります。 1つの記事はカテゴリに割り当てるべき説明です。 2番目のテキストは実際にはカテゴリを説明するすべてのキーワードを含むテキストです。類似性の割合が与えられた2つのテキストを比較する。 特定のカテゴリと最も類似しているテキストは、実際にはそのカテゴリです。私はこの暗号のsimilar_text()をするか、そうでなければならないのでしょうか?テキストのカテゴリを取得する

+0

コード例?本当にあなたが何を求めているのか分かりません。 –

+0

ex。私はいくつかのテキストのカテゴリを自動的に取得するためにアルゴラームを書く必要があります。例。スポーツに関するテキストです。私は類似性のパーセンテージを取得する必要があります。私はスポーツに関するこのテキストを他のテキストと比較します。他のテキストは、そのカテゴリを説明するキーワードです。すべてのテキストカテゴリをスポーツに関するテキストと比較すると、スポーツに関するテキストのカテゴリである類似性の最大パーセンテージが得られ、スポーツテキストはスポーツカテゴリになります。 –

+0

これを行うには - これはsimilar_text()で行うことができます。 –

答えて

1

私はBayesian classifierを使用して類似度を判断します。

+0

funcyion similar_text()とは関係ありませんか? –

関連する問題