MapReduceアプローチを使用して、(HTTP経由で)連続したデータストリームを分析したいので、Apache Hadoopについて調べてきました。残念ながら、Hadoopは到着時に新しいデータを消費者に渡すのではなく、固定サイズの入力ファイルで仕事を開始することを期待しています。これは事実ですか、何か不足していますか?開いているソケットから読み込まれているデータで動作する別のMapReduceツールがありますか?スケーラビリティはここで問題になるので、私はMapReducerに面倒な並列化の問題を処理させたいと思っています。ストリーミングデータとHadoop? (Hadoop Streamingではない)
私はCascadingで遊んだことがあり、HTTP経由でアクセスされる静的ファイルでジョブを実行することができましたが、これは実際に私の問題を解決するものではありません。私は中間ステップとしてカールを使用して、データをHadoopファイルシステムのどこかにダンプし、新しい仕事が始まるたびに新しい仕事を開始するためのウォッチドッグを書きますが、それは汚いハックです。これを行うにはもっとエレガントな方法が必要です。何か案は?
私はこの分野に精通していませんが、初めにActiveInsight(CPALライセンス - 帰属が必要)も好きでした。 –