2017-01-20 3 views
1

私はバッチモード(データセットを使用)でSparkの仕事をしています。これは何らかの変換を行い、データをNOSQLに取り込みます。Spark Streamingでデータセットベースの変換を使用するには?

頻度が非常に高い(分)ものの、バッチモードで受信した構造と同様の他のソースからデータを取得します。ストリーミングのバッチモードで使用するコードを使用できますか?

私は、同様の構造を扱うために2つのコードのコピーを避けようとしています。 (the scaladocで説明したように)

+0

あなたのやっていること、いくつかのコード例、スパークのバージョンなど、詳細を投稿してください。 Spark 2.0ではストラクチャードストリーミングが使用されているため、ストリーミングデータセットはすぐに使用できます –

+0

http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#overviewから:「ストラクチャードストリーミングはまだALPHAですSpark 2.1とAPIはまだ実験的です。私は「生産用ではない」/「知っているがまだ使用していない」と読んでいる。 –

答えて

0

あなたはtransformストリーミング演算子を使用することができます。

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U] 

戻り、各RDD「は、この」DSTREAMの各RDDに関数を適用することによって生成される新しいDSTREAM。

関連する問題