大規模なコーパスの文書をクラスタリングするのに最適なオープンソースパッケージはどれですか?クラスタ自体の数を決定するか、それをパラメータとして受け入れることもできます。オープンソースパッケージをクラスタリングするのに最適なドキュメントはどれですか?
私たちは、組織内のさまざまなプロジェクトやクライアントの販売管理者が作成した文書で、特定のトピックを中心に実際には扱われない大量の文書コーパスを持っています。私は、このような普及コーパスを持つことがパフォーマンスを低下させることは知っていますが、私たちが得られる最高のもので生きようとしています。 http://www.cs.princeton.edu/~blei/topicmodeling.html
(オープンソースコード付き)、競合大手グループ:http://nlp.stanford.edu/software/tmt/tmt-0.3/今、私たちは分野の専門家のホームページから
こんにちは、何かがその間に劇的に変わりましたか?私はこのクールなツールを見つけました:https://code.google.com/p/maui-indexer/ – Kiril