0

私は、おそらくStackoverflowを読んで、es-hadoop/es-sparkプロジェクトで一括インデックスを使用しています。そうであれば、デフォルトのバッチサイズはBulkProcessor(5Mb)に従います。これを変更する設定はありますか?Elasticsearch hadoopはバルクバッチサイズを設定します

私のコードでJavaEsSparkSQL.saveToEs(dataset,index)を使用しています。パフォーマンスをチューニングするために利用できる設定が何であるか知りたいと思います。これはデータセットのパーティショニングにも関連していますか?

答えて

0

はElasticsearchバルクAPIを使用してバッチ書き込みのための彼らの設定ページの設定(バイト単位)

es.batch.size.bytes (default 1mb) 

サイズを見つけました。バルクサイズはタスクインスタンスごとに割り当てられます。実行時にElasticsearchを実行するときに、バルクサイズの合計を取得するには、常にHadoopジョブ内のタスク数を掛けます。

es.batch.size.entries (default 1000) 

Elasticsearch bulk APIを使用したバッチ書き込み用のサイズ(エントリでは0)は無効です。 es.batch.size.bytesに加えて一度一致すると、バッチ更新が実行されます。サイズと同様に、この設定はタスクごとのインスタンスです。実行時に実行されているHadoopタスクの総数で乗算されます。

関連する問題