私は5千万のテキストスニペットを持っており、それらからいくつかのクラスタを作成したいと思います。次元は60k〜100kの間のどこかにあるかもしれません。平均テキストスニペットの長さは16ワードです。あなたが想像することができるように、周波数行列はかなり疎です。私はこれらのクラスタを見つけることができるソフトウェアパッケージ/ libray/sdkを探しています。私は過去にCLUTOを試していましたが、これはCLUTOにとって非常に重い作業のようです。私の研究のオンラインから、BIRCHはそのような問題を処理できるアルゴリズムであることが判明しましたが、残念ながらBIRCH実装ソフトウェアをオンラインで見つけることができませんでした(私は、割り当てプロジェクトのような、ドキュメントの並べ替えなど)。助言がありますか?何百万という高次元データのクラスタリング
答えて
グラフパーティションアルゴリズムで試してみてください。高次元データのクラスタリングを可能にするのに役立ちます。
あなたはまた、マイクロアレイ解析のためのアルゴリズムをチェックしようとする必要があります。そこには高次元のデータもあります。 – Phill
あなたはむしろall-pairsのようなものを探していると思います。
これにより、類似のレコードのペアを希望のしきい値まで得ることができます。グラフ理論のビットを使用して後でクラスタを抽出することができます - 各ペアにエッジを考慮します。接続されたコンポーネントを抽出すると、単一リンケージクラスタリングのようなものが得られます。クロークリックは完全なリンケージクラスタを提供します。
BIRCH in C++の実装が見つかりました。
私の教授がJavaでBIRCHアルゴリズムのimplementationを作った。いくつかのインラインコメントで読むのは簡単です。
TopSig表現を使用するストリーミングEMツリーアルゴリズムをチェックアウトすることに興味があります。どちらも私の博士号のものです。大規模な文書クラスタリングのトピックに関する論文。
私たちは最近、単一の16コアマシン(http://ktree.sf.net)に733万のドキュメントをクラスタリングしました。文書を索引付けするのに約2.5日かかり、文書をクラスタリングするのに15時間かかった。
ストリーミングEMツリーアルゴリズムは、https://github.com/cmdevries/LMW-treeにあります。それは、http://topsig.googlecode.comで見つけることができるTopSigによって生成されたバイナリドキュメントベクトルで動作します。
私は同じアプローチについてブログ記事を先にhttp://chris.de-vries.id.au/2013/07/large-scale-document-clustering.htmlに書いています。ただし、EMツリーは並列実行の方がスケーラビリティが高く、クラスタの品質も向上します。
ご不明な点がございましたら、お気軽に[email protected]までご連絡ください。
- 1. 何百万ものレコードのデータベースのスケーリング
- 2. Sql server 2008サービスブローカー何百万ものキュー
- 3. iOS - 50万ファイル、1百万件のエントリ
- 4. Javaで何百万という非繰り返し乱数を生成する
- 5. 数百万行のMySQLロックテーブル
- 6. 何百万というファイル名を検索するのに最適なデータ構造ですか?
- 7. 何百万ものMySQL行を扱っています
- 8. テーブルソーターは何百万もソートしていません
- 9. 高次の空間的時間的クラスタリング
- 10. Javaで高次元データをプロットする
- 11. 何百万ものプリミティブのマウスピッキング戦略はありますか?
- 12. 何百万ものセグメントを画面上に描画する
- 13. MySQLデータベースに何百万ものダミーレコードを挿入する
- 14. SSISで何百万ものレコードをインポートする
- 15. Sql何百万ものレコードを検索します。可能?
- 16. 巨大グラフ(百万ノードとリンク)を持つNeo4jのノード次数クエリ
- 17. 数百万のエントリのSimpleDBテーブルのCount(*)
- 18. 数百万行のmysqlハードドライブの効率
- 19. 1つまたは複数のテーブルで何百万もの行を扱う?
- 20. RavenDbは何百万という数のドキュメントをクエリするためのパフォーマンスを期待しています
- 21. パスワード、塩、ハッシュ、DB:百万回のため
- 22. Oracleデータベースから何百万行ものテーブルを照会しています
- 23. リストビュー約百万件を表示
- 24. MCPS(百万回/秒)と消費電力との関係
- 25. ロード高次元のRデータセット
- 26. 百万ドローホームページはどのように機能しますか?
- 27. 何百万人ものユーザーがいるグローバルな面がどうして速いのですか?
- 28. mysql何百万もの行データを1つのテーブルから別のテーブルにインポートする
- 29. iphoneの膨大な(おそらく1百万のエントリ)データを持つUITableView
- 30. RavenDBに何百万ものドキュメントを追加する方法 - 組み込み
空き時間をチェックしたかったのですが、reduce/hadoopヘルプをマップすることができるので、正確にはわかりません。 – HRgiger
よく、私はこれを動作させるためのクラスタリングアルゴリズムを並列化しなければならないでしょう。そこにはいくつかの準備ができているソリューションがあると期待していました。 – Alexandros
R、Python、Javaのテキストマイニングを見てください... N(#rows)またはP(#dims)のいずれかが大きく、まともなテキストマイニング/クラスタリングパッケージを起動する必要があります。 – Iterator