2017-12-07 12 views
3

チュートリアルを終えてもアーキテクチャについてはあまり明確ではありません。分散環境でストリームセットを拡張するにはどうすればよいですか?たとえば、入力データの速度が原点から増加し、SDCがパフォーマンスの問題を起こさないようにする方法を教えてください。いくつのデーモンが実行されますか?それはマスターワーカーアーキテクチャかピアツーピアアーキテクチャでしょうか?StreamSetsアーキテクチャとは何ですか?

複数のマシンで実行されているデーモンが複数ある場合(たとえば、1つのsdcとYARNの1つのNodeManager)、データの集中ビュー、つまり合計レコード数などをどのように表示しますか?

また、Dataflowパフォーマンスマネージャのアーキテクチャについても教えてください。この製品にはどのデーモンがありますか?

+0

デアモンについての懸念や質問、さらにその意味を明確にすることはできますか?あなたは[deamon threads](https://docs.oracle.com/javase/8/docs/api/java/lang/Thread.html#isDaemon--)について具体的に話していますか?もしそうなら、デーモンスレッドに関して特に懸念がありますか? Javaでは、通常のスレッドw.r.tとほぼ同じように動作します。リソースの消費など、私は疑問に思っている理由です。 –

答えて

2

StreamSets Data Collector(SDC)は、入力データを分割することによって拡大縮小します。場合によっては、Cluster Batch modeがHadoop/MapRクラスタ上のMapReduceジョブとしてSDCを実行してHadoop FS/MapR FSデータを読み取るなど、Cluster Streaming modeはKafkaパーティションを活用し、SDCをSpark Streamingアプリケーションとして実行します。カフカパーティションがあるので、多くのパイプラインインスタンス。

ストリームセットは、マルチスレッドで拡張できます。たとえば、HTTP ServerおよびJDBC Multitable Consumerオリジンでは、複数のパイプラインインスタンスが別々のスレッドで実行されます。

すべての場合、Dataflow Performance Manager(DPM)は、合計レコード数を含むデータの集中表示を提供します。

関連する問題