2009-11-10 19 views
6

HBase(0.20.1)をデータソースとデータシンクとして使用するHadoop(0.20.1)のmapreduceジョブを構築しています。私はPythonでジョブを書きたいと思っています。私はhadoop-0.20.1-streaming.jarを使用してPythonスクリプトとの間でデータをストリームする必要があります。これは、データソース/シンクがHDFSファイルであれば問題ありません。HBaseからのHadoop mapreduceストリーミング

HadoopはMapreduce用のHBaseからのストリーム配信をサポートしていますか?

+0

あなたはHBaseの+カフカ+スパークストリーミング統合に見ていたしましたか? – Mike

答えて

1

これは私が望むことをしているようですが、Hadoopディストリビューションの一部ではありません。その他の提案やコメントはまだ歓迎されています。

http://github.com/wanpark/hadoop-hbase-streaming

+0

私の質問には何か提案がありますか? - http://stackoverflow.com/questions/10953731/calculate-tf-idf-of-documents-using-hbase-as-the-datasource – JHS

関連する問題