Hadoop on cassandraデータベース

私はCassandraを使用してデータを保存し、データを処理するためにハイブを使用しています。私は5台のマシンにキャッサンドラと2台のマシンを設定しています。（ハイブが走っている）分析ノードとして使用しています。 2台のマシン（アナリティクスノード）でハイブを減らしてデータを取り込みますか？プロセス/計算を5つのcassandraノードに移動し、それらのマシン上のデータを処理/計算します（私が知っているのは、ハーフープにあり、プロセスは処理するデータではなくデータに移動します）。Hadoop on cassandraデータベース

出典

2013-02-12 Aashish Katta

HadoopとCassandraとの結婚に興味があれば、最初のリンクはこのコンセプトに基づいて構築されたDataStax社です。 http://www.datastax.com/ HDFSをhadoopに置き換え、cassandraに置き換えました。私の理解の最高で - 彼らはデータの局所性を持っている：http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/

あなたはあなたの質問についてはカサンドラ Cassandra and MapReduce - minimal setup requirements

に対してのMapReduceを実行する場合のHadoop &カサンドラデータの局所性についての良い答えがある - tradeofがあります： a）別のノードでHadoop/Hiveを実行すると、データの局所性が失われ、データスループットがネットワーク帯域幅によって制限されます。
b）cassandraが実行されているノードと同じノードでhadoop/Hiveを実行すると、データの局所性が得られますが、ハイブクエリの背後にあるMapReduce処理がネットワーク（およびその他のリソース）を塞ぐ可能性があり、

あなたの提案は、あなたのcassandraクラスタのパフォーマンスが重要である場合、別のハイブノードを持つことです。
あなたのcassandraが主にデータストアとして使用され、リアルタイム要求を処理しない場合、各ノードでハイブを実行すると、パフォーマンスとハードウェアの使用率が向上します。

出典

2013-02-12 08:52:10

非常に役に立ちました –

Hadoop on cassandraデータベース

答えて

関連する問題