私はスパークからカッサンドラに2億本のレコードを摂取しました。 spark-cassandraコネクタを使用する。カッサンドラは異なるランで異なる結果を示しています
私は次の2つの問題に直面しました。申し訳ありませんが、件名は1つの質問のみを参照しています。
1)com.datastax.driver.core.exceptions.WriteFailureException
:一貫性LOCAL_QUORUM
での書き込みクエリ中のカサンドラの失敗(1つの応答が必要なだけ0レプリカが1に障害が発生し、応答した)
は、私は、好ましくは3高い複製因子を有する問題を解決するだろう、ということを考え出しました。私はまだ同じ問題に直面していました。
クラスタを再起動する必要はありますか?
第2 &重要)私はスパークジョブを実行してcount(*)
を私のテーブルに載せました。スパーク・ジョブにはエラーはありませんでした。しかし、私の仕事は毎回異なるカウントを与えています。 cassandraは非常に安定していて強固だと強く思っています。私はここでいくつかの重要な部分が欠落しているかもしれません。
My actual number of rows: 286,530,307
My first run result: 285,508,150
2nd Run: 285,174,293
3rd Run: 285,232,533
なぜ異なる結果が得られたのですか?
マイキースペース作成:
CREATE KEYSPACE IF NOT EXISTS db_research WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 };
私のテーブルには、28個の列があり、
を使用し、私のエラーのいずれかがこのような結果をトリガしましたか。?エラーがあっても、毎回同じカウントが表示されます。何が欠けていますか?
こんにちは、私はそれを完了するために、永遠に取って修復nodetool使用した場合。私はテーブルを切り捨て、ノデトール修復を行った。データがないので、早期に完了しますが、データを再度取り込んだときには同じ運命です。 – Srini
私も同じ問題に直面しています。圧縮が役立つかどうか教えてください。私は現時点でデータを失いたくない。 – ashK