2017-09-21 1 views
1

SnappydataとSQLを使用して分析を実行していますが、ジョブが遅く、非常に大きな入力データに対して結合操作が必要です。SnappyData並列処理を実現する複数のジョブ

入力データを最初にパーティション化し、同時に異なるパーティションでジョブを実行してプロセスを高速化することを検討しています。しかし、埋め込みモードの 私のコードは、SnappySessionが渡されると、テーブルを照会するためにbin/snappy-sqlを使うことができるので、すべてのsnappydataジョブが同じSnappySession(または同じテーブル名前空間私の理解ではPostgreSQLの同じデータベース)。

異なる入力引数を持つ同じjarを使用してジョブをサブミットすると、テーブルの名前空間が異なるジョブで同じになるため、エラーが発生することが想定されます。

私の質問は、複数のsnappySession(またはデータベース名のような複数の名前空間)が独立して一連の操作を独立して実行できるかどうかです。

答えて

1

私は質問に従うかわかりません。

snappy-sqlを使用してクエリを送信すると、このシェルはJDBCを使用してクエリを接続して実行します。内部的にはジョブを起動し、クエリに応じて各パーティションで並行タスクを実行します。そして、はい、このSQLセッションは内部的に一意のSnappySession(スパークセッション)に関連付けられています。

または、多分、あなたは多くのテーブル間でデータを分割し、独立したが、並列にこれらのテーブルの上に処理を開始しようとしていますか?

+0

返事をありがとう非常に多くを、データを分割して並列に各SQLを実行するために、複数のテーブルを作成すると、移動するための方法であると思われるので。私は既存のコードをそのまま使用することを望んでいましたが、コードを変更する必要があります。 – user3230153

関連する問題