答えて
あなたが探しているものは本当にわかりません。おそらくLuceneのようなものでしょうか?
(数値データのマイニングやクラスタリングではなく)テキスト処理の場合、NLTKツールキットは一見価値があります。これは、Pythonで自然言語処理技術を教えることを目的としています。だからこそこれは理想的です。Pythonを使うことを選択した場合、多くのコンポーネントクラスと実装が役立つはずです。
ありがとう!私のプロジェクトのいずれかが私はこのツールキットをチェックします:) – Edward83
RapidMinerは無料のオープンソースで、Windows、Mac、Linux上で動作し、素晴らしいグラフィカルなワークフローベースのプログラムです。これはすべてのWekaコードを実行し、Rと統合します。
@ELありがとう;)私はそれをチェックします) – Edward83
Apache Mahoutは、テキストデータにも適用可能な非常にスケーラブルなアルゴリズムを提供しています。 Apache UIMAはデータマイニングアルゴリズムを提供していませんが、自然言語処理で広く使用されているフレームワークです。 ここhttp://www.RapidMiner.com/
は、データマイニングの専門家の間で最も人気のデータマイニングツールの調査です:
RapidMinerは私れる好ましいデータマイニングソリューションである http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html
KDnuggets投票2011:RapidMinerは、最も広く使用されているデータであり、世界中のデータマイニングの専門家の間で採掘ソリューションを提供しています。
WekaとRapidminerはクラスタリングでそれほど強くはありません。彼らは主に分類や類似の予測をしますが、クラスタリングはほとんどありません。 ELKIを見てください。これはWEKA大学のプロジェクトに似ていますが、数多くのクラスタリングとアウトライア検出方法があります。
私は頻繁なパターンマイニングのためのJavaオープンソースソフトウェアの著者です。
テキストマイニング用に特別に設計されているわけではありませんが、一部のアルゴリズムをテキストの頻繁なパターンに適用することができます。たとえば、いくつかの文章で頻繁に一緒に表示される単語のシーケンスを検索する場合は、連続パターンマイニングアルゴリズムを適用できます。しかし、テキストファイルが適切な形式になるようにソフトウェアを適用する前に、いくつかの前処理が必要になります。 http://www.philippe-fournier-viger.com/spmf/
のApache MahoutのがまたはのMapReduce(ApacheのHadoopの)せずに使用することができるオープンソースMachileラーニングライブラリ、次のとおりです。
現在地のソフトウェアを確認することができます。
それはJavaでfolloeingアルゴリズムの実装を提供する:
- 協調フィルタリング
- ユーザとアイテムベースの推薦
- K平均、ファジーK平均クラスタリング
- を
- シフトクラスタリング平均ディリクレプロセスクラスタリング
- 潜在ディリクレ割り当て
- 特異値分解
- 並列頻出パターンマイニング
- 相補単純ベイズ分類器
- ランダムフォレスト決定ツリーベースの分類器
あなたはより多くを読むことができます: http://mahout.apache.org/
http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html
アドバイスありがとう:) – Edward83
- 1. フレームワーク - PHPフレームワークとは何ですか?
- 2. Obj-CフレームワークとSwiftフレームワークのリンク
- 3. Playフレームワーク2.0とSpringフレームワークの統合
- 4. ASP.NET IISとフレームワーク
- 5. サブドメインとZendフレームワーク
- 6. ExtJSとPlay!フレームワーク
- 7. YiiフレームワークとStruts2
- 8. フレームワークとバンドル
- 9. PHPフレームワークとモバイルフレームワーク
- 10. PyXBとPythonフレームワーク
- 11. Rhinopythonと.NETフレームワーク
- 12. angularjsイオン性フレームワークと
- 13. Zend PHPフレームワークとサーバプロセス
- 14. MonoMacプラットフォームInteropとフレームワーク
- 15. エンティティのフレームワークとカップリング
- 16. デスクトップモノラルアプリケーションとMVC/MVPフレームワーク
- 17. モノラル.NETフレームワークとWMI
- 18. zendフレームワークとPHPインクルード( '');
- 19. ログインとログアウトzendフレームワーク
- 20. Twigフレームワークとdatetimeエラー
- 21. MVCとNHibernateのフレームワーク
- 22. Expressフレームワークapp.postとapp.get
- 23. クラス拡張とフレームワーク
- 24. EbeanとOptimisticLockExceptionがとフレームワーク2
- 25. フレームワークとしてのCMSアプリケーション?
- 26. GWT 2.2.0とサードパーティのMVPフレームワーク
- 27. JavaScriptフレームワークとWeb開発
- 28. ウェブとモバイルのHTML5フレームワーク(LAMP)
- 29. MongoDBの集約フレームワークとPython
- 30. JPAとスレッドは、再生フレームワーク
実際にテキストマイニングエンジンをお探しですか?データマイニングエンジンは、テキスト自体ではなくメタデータを処理する傾向があります。 – ianmayo