最新ニュースを検出するためにツイートをクラスタリングしようとしています。私はクラスタリング手法としてDBSCANを使用しています。私は良い値のεとmin_sample_pointに到達することができません。つぶやきをクラスタ化するために、私は2000個のつぶやきのバッチを作成し、それにクラスタリングアルゴリズムを適用しています。 feautureの抽出のために、私はscikit.learnパッケージのtf-idfベクトル化を使用しています。ベクトル化器のパラメータとしてmax_df = 0.6およびmin_df = 5およびバイグラムを使用する。大部分の結果は、ほとんどのつぶやきを異常値として表示したり、多数のランダムなつぶやきを単一のクラスタに表示したりします。私は使用した値の例 - eps = 0.2とmin_samples = 8。また、クラスタ(k)の数がこの問題について予見できず、クラスタの形状が球形ではない場合があるので、K平均アルゴリズムを避けています。TweetクラスタリングのためのDBSCAN Algoのパラメータを決定する
-1
A
答えて
0
ニュース速報では、クラスタリングよりはるかに優れたアプローチがあります。
テキストデータ、特にTwitterは信じられないほど騒々しいです。多くのつぶやきはちょうど完全なナンセンスです。しかし、主な問題は、が短すぎることです。です。数語しかない場合は、距離を測定するためのデータが少なすぎます。 "車が壁に当たった。"と "壁の通りの車"は非常に似た言葉(TF-IDFに基づいて)を持っていますが、それらは非常に異なる意味を持っています。
私はこれがうまくいかないことに驚くことはありません。実際には "失敗"するクラスタリングではなく、距離機能です。
+0
代替距離測定を提案できますか?私は89%の精度を示している多項式ナイーブベイズを使用してニュースツイートだけを取得します..クラスタリングはこれらのニュースのつぶやきでのみ行われています。 – Walker894
+0
私はそれがデータの問題ではなく、距離測定だと思う。 –
関連する問題
- 1. DBSCANアルゴリズムへの入力値を決定する
- 2. PHP PHPのためのTweetスクリプト4.4.9
- 3. クラスタリングにDBSCANアルゴリズムを使用するデータセットでminpts = 4が最適な設定ですか?
- 4. scikit-learnのDBSCANアルゴリズムの入力行列とパラメータ
- 5. PythonのコサインメトリックでのDBSCANエラー
- 6. 不定記事を決定するためのJavascriptライブラリ
- 7. マクロを使ったタイプジェネリックプログラミング:タイプを決定するためのトリック?
- 8. 月の月の数を決定するためのSQLステートメント
- 9. Apache Poi - Algo
- 10. 変更された日付を決定するためのバッチファイル
- 11. scikit-learn DBSCANメモリの使用
- 12. アンドロイド:プログラムでのためのmaxHeightパラメータを設定するプログレスバー/シークバー
- 13. 特定の仮想メソッドのためにパラメータを追加する
- 14. Node.jsクラスタリング - 負荷分散を決定する要因は何ですか?
- 15. 時制を決定するためのCLI文法チェッカー
- 16. Tomcatのクラスタリングは、セッションレプリケーションのためだけですか?
- 17. ベクトルベースのクラスタリングを行うための関数とデータ形式R
- 18. scikit-learnでのクラスタリングのハイパーパラメータ評価のためのグリッド検索
- 19. 「最新のJavaバージョン」を決定するためのオラクルまたはサードパーティのサービス
- 20. クラス型パラメータの型を決定する型付き
- 21. 拡張のための登録されたアプリケーションを決定する
- 22. HttpOnlyとSecureパラメータを設定するためのApache2.2の設定方法は?
- 23. クラスタリングのための期待最大化(EM)アルゴリズム
- 24. クラスタリングのためのC/C++機械学習ライブラリ
- 25. レールのためのRansackのデフォルトの検索パラメータを設定
- 26. パラメータ化された型のための特定のビルダー
- 27. 行を削除するためのパラメータ
- 28. Tweet JavaScriptを使用する
- 29. SQL Serverのバージョンコストを決定するためのポイントは何ですか?
- 30. LOCはプロジェクト推定のための正しいパラメータですか?
私は自分の問題を解決したようでした。問題は、私のデータソースは、特定の期間内に合計のツイートの約1%しか提供しないTwitterのストリーミングAPIでした。主に非常に異なっています。min_sampleポイント= 1を守ることで問題が解決され、約0.5〜0.8のepsが良好です。今度はクラスターを考える価値があります。サイズ1のクラスターを無視できます。あなたの問題に応じて、それを価値あるクラスタとしてマークするクラスタサイズepsを選択する鍵は、クラスタリングに入力された疎行列を見ることにあります。 – Walker894