2016-04-16 7 views
-1

最新ニュースを検出するためにツイートをクラスタリングしようとしています。私はクラスタリング手法としてDBSCANを使用しています。私は良い値のεとmin_sample_pointに到達することができません。つぶやきをクラスタ化するために、私は2000個のつぶやきのバッチを作成し、それにクラスタリングアルゴリズムを適用しています。 feautureの抽出のために、私はscikit.learnパッケージのtf-idfベクトル化を使用しています。ベクトル化器のパラメータとしてmax_df = 0.6およびmin_df = 5およびバイグラムを使用する。大部分の結果は、ほとんどのつぶやきを異常値として表示したり、多数のランダムなつぶやきを単一のクラスタに表示したりします。私は使用した値の例 - eps = 0.2とmin_samples = 8。また、クラスタ(k)の数がこの問題について予見できず、クラスタの形状が球形ではない場合があるので、K平均アルゴリズムを避けています。TweetクラスタリングのためのDBSCAN Algoのパラメータを決定する

+0

私は自分の問題を解決したようでした。問題は、私のデータソースは、特定の期間内に合計のツイートの約1%しか提供しないTwitterのストリーミングAPIでした。主に非常に異なっています。min_sampleポイント= 1を守ることで問題が解決され、約0.5〜0.8のepsが良好です。今度はクラスターを考える価値があります。サイズ1のクラスターを無視できます。あなたの問題に応じて、それを価値あるクラスタとしてマークするクラスタサイズepsを選択する鍵は、クラスタリングに入力された疎行列を見ることにあります。 – Walker894

答えて

0

ニュース速報では、クラスタリングよりはるかに優れたアプローチがあります。

テキストデータ、特にTwitterは信じられないほど騒々しいです。多くのつぶやきはちょうど完全なナンセンスです。しかし、主な問題は、が短すぎることです。です。数語しかない場合は、距離を測定するためのデータが少なすぎます。 "車が壁に当たった。"と "壁の通りの車"は非常に似た言葉(TF-IDFに基づいて)を持っていますが、それらは非常に異なる意味を持っています。

私はこれがうまくいかないことに驚くことはありません。実際には "失敗"するクラスタリングではなく、距離機能です。

+0

代替距離測定を提案できますか?私は89%の精度を示している多項式ナイーブベイズを使用してニュースツイートだけを取得します..クラスタリングはこれらのニュースのつぶやきでのみ行われています。 – Walker894

+0

私はそれがデータの問題ではなく、距離測定だと思う。 –

関連する問題