私はSpark Streaming kafka統合ガイドをKafka 010バージョンに基づく最新のドキュメントページで読んでいました。私が見ることができるという点で、グループIDを使用したSpark Streaming Direct Streamアプローチ
http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html#creating-a-direct-stream
カフカのparamsの一つは、私は、我々はDirectStreamのアプローチを使用する場合、パラメータの一つとしてgroup.id
を渡すために持っていけないと思った"group.id" -> "example"
です。私はこのドキュメントを混乱させる。 group.idとSpark Streaming Direct Streamのアプローチの関係は何ですか?
ダイレクトストリームアプローチではコンシューマーグループが存在しないため、私の理解では 'group.id'はダイレクトストリームでは必要ないので、私の質問はダイレクトストリームアプローチに固有です。 – Shankar
私の理解によれば、カフカのすべての消費者は消費者団体の一員でなければなりません。特定のグループIDを指定することができます。カフカの消費者グループは、グループ内の消費者にトピックのパーティションを配布する基本的な部分です。トピックの各オフセットは、グループごとおよびパーティションごとに維持されます。 –
しかし、Spark StreamingのdirectStreamアプローチでは、カフカパーティションとRDDパーティションの間に1対1のマッピングがあるため、コンシューマグループロジックはありません。これを確認してくださいhttp://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html#approach-2-direct-approach-no-receivers – Shankar