2016-03-24 26 views
-1

spark経由でcassandraに約200万レコードを読み込もうとしています。 Sparkには4人のエグゼキュータがあり、cassandraにはクラスタ内に4つのノードがあります。しかし、すべてのデータをcassandraに保存するには約20分かかります。誰もがこのことをもっと速くするために私を助けてくれますか?Spark Cassandra書き込みパフォーマンス

+1

これはC *の4ノードでかなり遅いです。あなたは誰でもあなたを助けることができるだろうが、より多くの情報を指定する必要があります。 はどのように が... – RussS

+0

は実際に私はレコードを読み取るためにデータフレームを使用していたノードとすべてのノードがあるuは聞かせてくださいすることができ7Gメモリストレージ – franyfpk

+0

を持っているハードウェア、どんな を書くためにあなたはどのようなコードを使用しているレコードの を読んでいます私は一般に4ノードクラスタの書き込み速度が何であるか知っています。 – franyfpk

答えて

0

[OK]をので、私は同じ場所に配置しないでパフォーマンスのベンチマーク

  • スパーク(ありませんので、データの局所性...)
  • のためにあなたの設定VM内カサンドラを実行

    1. でいくつかの問題を見ることができます一般に、仮想マシン内にCassandraをインストールすると、であり、パフォーマンスベンチマークではが推奨されていません。アンチパターンです。だからあなたの遅い挿入率は正常です、あなたはVMを使用している間、より良いperfを要求することはできません。文句を言ってはいけません。

    関連する問題