-2

文書クラスタリングの結果を改善するために適用できる人工知能アルゴリズムはありますか?クラスタリングのためのアルゴリズムは、階層的であってもよいし、他のものであってもよい。 文書クラスタリング

はあなたが

答えて

5

The Wikipedia article on document clusteringは「Recent Developments in Document Clustering」と呼ばれる、バージニア工科大学からのニコラス・アンドリュースとエドワード・フォックス2007年論文へのリンクが含まれてありがとうございます。私はあなたが「人工知能アルゴリズム」としてどのようなクラスになるのかはっきりとは分かりませんが、紙の内容をスキャンすると、ベクトル空間モデル、kmeans拡張、生成アルゴリズム、スペクトルクラスタリング、次元削減、フェーズベースモデル、比較解析。これはかなり数学的に密な治療法ですが、彼らが話しているアルゴリズムへの参照を慎重に入れています。

2

実際、クラスタリングはAIドメインの問題の1つです。そして、あなたが1つ下のレベルを下にしたいのであれば、それは機械学習の分野にあると言うかもしれません。この意味で、AIはドキュメントクラスタリングを改善しませんが、それを解決します。 Dumbledad mentionsいくつかの基本的な選択肢がありますが、あなたが毎回持っているデータのタイプは、異なるアルゴリズムでよりよく扱われるかもしれません。この問題には、多くのk-meansに基づく手法があります。そのような場合には慎重な播種が必要です。球状のk-means(Dhillonの論文を探す)は簡単で標準的なアプローチです。その他の拡張子はk-synthetic prototypesです。

サブスペースのクラスタリングも良い試みです。一般に、「ドキュメントクラスタリング」の記事では、「高次元のデータスペースと希薄なデータスペースでのクラスタリング」をチェックしています。

関連する問題