5

どのようなオープンソース/フリーのデータマイニングエンジンとフレームワークは、テキストデータに使用していますか?データマイニングエンジンとフレームワーク?

ありがとうございました!

+0

実際にテキストマイニングエンジンをお探しですか?データマイニングエンジンは、テキスト自体ではなくメタデータを処理する傾向があります。 – ianmayo

答えて

1

エンジンやフレームワークについてはわかりませんが、このツールはWekaと呼ばれていますが、その中には多くのアルゴリズムが実装されています。

+0

ありがとうございます!私は著者が素晴らしい本を書いていることを発見したので、http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

3

あなたが探しているものは本当にわかりません。おそらくLuceneのようなものでしょうか?

1

(数値データのマイニングやクラスタリングではなく)テキスト処理の場合、NLTKツールキットは一見価値があります。これは、Pythonで自然言語処理技術を教えることを目的としています。だからこそこれは理想的です。Pythonを使うことを選択した場合、多くのコンポーネントクラスと実装が役立つはずです。

+0

ありがとう!私のプロジェクトのいずれかが私はこのツールキットをチェックします:) – Edward83

2

RapidMinerは無料のオープンソースで、Windows、Mac、Linux上で動作し、素晴らしいグラフィカルなワークフローベースのプログラムです。これはすべてのWekaコードを実行し、Rと統合します。

+0

@ELありがとう;)私はそれをチェックします) – Edward83

0

Apache Mahoutは、テキストデータにも適用可能な非常にスケーラブルなアルゴリズムを提供しています。 Apache UIMAはデータマイニングアルゴリズムを提供していませんが、自然言語処理で広く使用されているフレームワークです。 ここhttp://www.RapidMiner.com/

は、データマイニングの専門家の間で最も人気のデータマイニングツールの調査です:

1

RapidMinerは私れる好ましいデータマイニングソリューションである http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets投票2011:RapidMinerは、最も広く使用されているデータであり、世界中のデータマイニングの専門家の間で採掘ソリューションを提供しています。

2

WekaとRapidminerはクラスタリングでそれほど強くはありません。彼らは主に分類や類似の予測をしますが、クラスタリングはほとんどありません。 ELKIを見てください。これはWEKA大学のプロジェクトに似ていますが、数多くのクラスタリングとアウトライア検出方法があります。

1

私は頻繁なパターンマイニングのためのJavaオープンソースソフトウェアの著者です。

テキストマイニング用に特別に設計されているわけではありませんが、一部のアルゴリズムをテキストの頻繁なパターンに適用することができます。たとえば、いくつかの文章で頻繁に一緒に表示される単語のシーケンスを検索する場合は、連続パターンマイニングアルゴリズムを適用できます。しかし、テキストファイルが適切な形式になるようにソフトウェアを適用する前に、いくつかの前処理が必要になります。 http://www.philippe-fournier-viger.com/spmf/

3

のApache MahoutのがまたはのMapReduce(ApacheのHadoopの)せずに使用することができるオープンソースMachileラーニングライブラリ、次のとおりです。

現在地のソフトウェアを確認することができます。

それはJavaでfolloeingアルゴリズムの実装を提供する:

  • 協調フィルタリング
  • ユーザとアイテムベースの推薦
  • K平均、ファジーK平均クラスタリング
  • シフトクラスタリング平均ディリクレプロセスクラスタリング
  • 潜在ディリクレ割り当て
  • 特異値分解
  • 並列頻出パターンマイニング
  • 相補単純ベイズ分類器
  • ランダムフォレスト決定ツリーベースの分類器

あなたはより多くを読むことができます: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

+0

アドバイスありがとう:) – Edward83

関連する問題