2016-08-21 11 views
1

私はスパークからカッサンドラに2億本のレコードを摂取しました。 spark-cassandraコネクタを使用する。カッサンドラは異なるランで異なる結果を示しています

私は次の2つの問題に直面しました。申し訳ありませんが、件名は1つの質問のみを参照しています。

1)com.datastax.driver.core.exceptions.WriteFailureException:一貫性LOCAL_QUORUMでの書き込みクエリ中のカサンドラの失敗(1つの応答が必要なだけ0レプリカが1に障害が発生し、応答した)

は、私は、好ましくは3高い複製因子を有する問題を解決するだろう、ということを考え出しました。私はまだ同じ問題に直面していました。

クラスタを再起動する必要はありますか?

第2 &重要)私はスパークジョブを実行してcount(*)を私のテーブルに載せました。スパーク・ジョブにはエラーはありませんでした。しかし、私の仕事は毎回異なるカウントを与えています。 cassandraは非常に安定していて強固だと強く思っています。私はここでいくつかの重要な部分が欠落しているかもしれません。

My actual number of rows: 286,530,307 
My first run result: 285,508,150 
2nd Run: 285,174,293 
3rd Run: 285,232,533 

なぜ異なる結果が得られたのですか?

マイキースペース作成:

CREATE KEYSPACE IF NOT EXISTS db_research WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 }; 

私のテーブルには、28個の列があり、

を使用し、私のエラーのいずれかがこのような結果をトリガしましたか。?エラーがあっても、毎回同じカウントが表示されます。何が欠けていますか?

答えて

0

nodetool repairを実行してみてください - これは、クラスタ全体でレプリカを同期します:https://docs.datastax.com/en/cassandra/2.0/cassandra/operations/ops_repair_nodes_c.html

+0

こんにちは、私はそれを完了するために、永遠に取って修復nodetool使用した場合。私はテーブルを切り捨て、ノデトール修復を行った。データがないので、早期に完了しますが、データを再度取り込んだときには同じ運命です。 – Srini

+0

私も同じ問題に直面しています。圧縮が役立つかどうか教えてください。私は現時点でデータを失いたくない。 – ashK

関連する問題