2017-01-23 2 views
0

KAFKA接続用のベストプラクティスは何ですか?HDFSコネクタを使用するベストプラクティスは何ですか?kafka connectを使用するベストプラクティス

私のkafkaインスタンスはAWSホスト名a.b.c.dで実行されています。私のhadoop namenodeはAWSホスト名p.q.r.sです。開発/ POCの目的で、kafkaインスタンスを実行しているのと同じボックス、つまりa.b.c.dでコンフルエントにしています。 HDFSクラスタのサイズは500GBです。

しかし、クラスターサイズが20〜30TBの生産タイプのセットアップの場合、KAFKAインスタンスと同じボックスまたはネームノードボックスまたは別のボックスでコンフルエントにすることをお勧めしますか?このような制作の場合、どのくらいのディスクサイズが必要となるでしょうか?

答えて

1

あなたが「コンフルエント」と言ったときにConnectのワーカーを意味すると思いますので、このコメントはその前提に基づいています。可能な場合は、別のサービスを実行することをお勧めします。ネームノードとは別に、ブローカーとは別にワーカーを実行します。接続作業者は、データを保持しないため、(スタンドアロンモードのオフセットデータを除いて)ディスクスペースはほとんど必要ありません。分散モードでは、作業者を弾力的に調整することができますので、物事を分けることが長期的なスケーラブルな設定にも適しています。

同じボックス内で実行する場合は、実際にはパフォーマンスが許容できることを確認するためにベンチマークする必要があります。同じ場所に置いても構わないかどうかは、実際にはオンラインフォーラムには適していないレベルのユースケースの詳細が必要なコンサルティング問題です。

関連する問題