2017-01-24 9 views
0

私はSparkコンテキストをブロードキャストし、反対側でそれを取得するシナリオで作業しています。他の方法でも可能ですか?そうでなければ誰かが理由を説明することができます。Spark Contextをブロードキャストすることは可能ですか?

ご協力いただきまして誠にありがとうございます。

final JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.milliseconds(2000)); final JavaSparkContext context = jsc.sc(); final Broadcast<JavaSparkContext> broadcastedFieldNames = context.broadcast(context);

は、ここで私が達成しようとしているものです。 1.私たちには、カフカという形式のXML EVENTがあります。 2. xmlイベントでは、1つのHDFSファイルパス(hdfs:localhost // test1.txt)を持っています。 3. SparkStreamContextを使用してDSTREAMを作成し、xmlをフェッチしています。マップ関数を使用して、各xmlのファイルパスを読み取ります。 4. HDFS(hdfs:localhost // test1.txt)からファイルを読み込む必要があります。 これを読むには、私は入力ファイルの並列読み込みのためにexecutorにsparkコンテキストをブロードキャストしようとしているので、sc.readfileが必要です。 現在、私たちはHDFS Readファイルを使用していますが、それは並行して正しく読み込まれませんか?

+3

の上に構築照会することはできませんこれは不可能なことです。実行者側では、ドライバー・アクションを開始できません。おそらく根本的にあなたのアルゴリズムに間違いがあります。あなたが達成しようとしていることを説明してください。 –

+0

あなたはapache sparkから行を削除することができますが、sparkをSQLクエリを実行するためにolapエンジンとして使用する場合は、Apacheのインキュベータcarbondataをチェックして、更新レコードの削除をサポートし、スパークの上に構築してください –

+0

こんにちは、 。ここで私が達成しようとしていることがあります。 1. XMLイベントはKafka から来ています。2. xmlイベントには、HDFSファイルパス(hdfs:localhost // test1.txt)が1つあります。 3. SparkStreamContextを使用してDSTREAMを作成し、 xml。マップ関数を使用して、各xmlのファイルパスを読み取ります。 4. HDFS(hdfs:localhost // test1.txt)からファイルを読み込む必要があります。これを読むには私はsc.readfileが必要なので、インプットファイルの並列読み込みのためにexecutorにsparkコンテキストをブロードキャストしようとしています 現在、私たちはHDFS読み込みファイルを使用していますが、 – Aru

答えて

0

あなたがapacheの火花を使用して行を削除しても、あなたがSQLを実行するために、OLAPエンジンとして火花を使用する場合は、その更新、削除するレコードのあなたのサポートを提供carbondata Apacheのインキュベーターをチェックconceし、それが火花

関連する問題