2013-02-12 12 views
8

私はCassandraを使用してデータを保存し、データを処理するためにハイブを使用しています。 私は5台のマシンにキャッサンドラと2台のマシンを設定しています。(ハイブが走っている)分析ノードとして使用しています。 2台のマシン(アナリティクスノード)でハイブを減らしてデータを取り込みますか?プロセス/計算を5つのcassandraノードに移動し、それらのマシン上のデータを処理/計算します(私が知っているのは、ハーフープにあり、プロセスは処理するデータではなくデータに移動します)。Hadoop on cassandraデータベース

答えて

16

HadoopとCassandraとの結婚に興味があれば、最初のリンクはこのコンセプトに基づいて構築されたDataStax社です。 http://www.datastax.com/ HDFSをhadoopに置き換え、cassandraに置き換えました。私の理解の最高で - 彼らはデータの局所性を持っている:http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/

あなたはあなたの質問についてはカサンドラ Cassandra and MapReduce - minimal setup requirements

に対してのMapReduceを実行する場合のHadoop &カサンドラデータの局所性についての良い答えがある - tradeofがあります: a)別のノードでHadoop/Hiveを実行すると、データの局所性が失われ、データスループットがネットワーク帯域幅によって制限されます。
b)cassandraが実行されているノードと同じノードでhadoop/Hiveを実行すると、データの局所性が得られますが、ハイブクエリの背後にあるMapReduce処理がネットワーク(およびその他のリソース)を塞ぐ可能性があり、

あなたの提案は、あなたのcassandraクラスタのパフォーマンスが重要である場合、別のハイブノードを持つことです。
あなたのcassandraが主にデータストアとして使用され、リアルタイム要求を処理しない場合、各ノードでハイブを実行すると、パフォーマンスとハードウェアの使用率が向上します。

+0

非常に役に立ちました –

関連する問題