0

AWSでのCDHの展開に疑問があります。私はCloudera Engineering Blogで見つけたリファレンスアーキテクチャーとその他の資料を読んだが、それについてもう少し提案が必要だ。AWSでのCloudera CDHクラスタの構築:インスタンスとストレージ

1)CDHの配備は、ある種のインスタンスに対してのみ利用できますか、それともすべてのAWSインスタンスタイプに配備できますか?

2)24x7のアクティブなクラスタを作成したいとします。長時間実行しているクラスタでは、ローカルストレージインスタンスに基づいてクラスタを作成する方がよいと理解しました。私たちが2PBのクラスタを考えるなら、私はd2.8xlargeがデータノードにとって最良の選択であるべきだと思っています。マスターノードについて: - 3つのマスターノードのみを配備したい場合は、可能なマスターノードの障害に素早く対応できるように、ローカルストレージインスタンスまたはEBS接続インスタンスとして配備する方が良いでしょうか? - マスタノードのインスタンスタイプ(EBSまたはローカルストレージ)に関するベストプラクティスがありますか?データノードについて: - データノードに障害が発生した場合、ダウンタイムなしでクラスタを復元するために、新しいインスタンスを自動的にスピンアップしてクラスタに接続する自動化メカニズムがCDHにありますか?このことをするために、最初からスクリプトを作成する必要がありますか?エッジノードについて: - インスタンスタイプ(EBSまたはローカルストレージ)に関するいくつかのベストプラクティスがありますか?

3)S3でクラスタをバックアップしたい場合: - CDHからS3へのdistcpを実行すると、通常のS3ではなく氷河に直接データを移動できますか?データに圧縮(snappy、gzipなど)が適用されていて、S3へのdistcpを実行している場合: - S3に占有されている領域が同じであるか、またはdistcpコマンドがコピーのデータを圧縮解除していますか?

EBS接続インスタンスに基づいてクラスタを作成している場合: - ディスクをスナップショットで作成し、EBSディスクをスナップショットから再構築してデータノードを再接続することは可能ですか?

4)データノードがr4.8xlargeとして配備されており、より多くの馬力が必要な場合は、クラスタをr4.8xlargeからr4.16xlargeに大規模に拡大することは可能ですか?数分でディスクを接続したり取り外したりできますか?

ご清聴ありがとうございます。私の疑問が他のユーザーにも役立つことを願っています。

答えて

1

1)CDHコンポーネントが動作するインスタンスの型は明示的に制限されていませんが、最小の馬力で型を選択する必要があります。たとえば、私は、マイクロサイズのインスタンスが何かの多くのために働くとは思いません。小さすぎるタイプは一般にデーモンのメモリ不足を引き起こします。参照アーキテクチャは、特定の状況のインスタンスタイプを提案しています。

2)インスタンスタイプのルートボリュームについては、EBSを使用してください。新しいインスタンスの種類がルートディスクのローカルインスタンスストレージをサポートしていないなど、いくつかの理由があります。

CDHには、障害が発生したときにデータノードを置き換えるメカニズムがありません。おそらくCloudera Directorの助けを借りて何かを自分で巻くことができます。

3)S3のデータのライフサイクルルールを設定して、標準のストレージクラスから氷河に移行することができます。また、氷河に直接書き込むこともできます。それは直接のようには見えません。氷河のアクセスは、s3aコネクタを通して行うことができます。私はかなりdistcpとS3が圧縮にうんざりしないと確信しています。あなたがコピーするものは確実にS3にとっては不透明です。 EBSボリューム(ルートまたは追加の添付ファイル)をスナップショットしてから、それらを切り離して別のインスタンスに再度添付することができます。これは必ずしもdatanodeとdistcpルートをバックアップするための素晴らしい方法ではありません。各データノードは一意であり、クラスタの実行中にデータが変化するためです。

4)EBSでバックアップされたEC2インスタンスのサイズを変更するには、ディスクを取り外して再取り付けする必要があります。インスタンスのサイズを変更するには、インスタンスを停止する必要があります。唯一

0

ポイント3:

  • あなたはそれをデータに何もしないAWSの設定
  • を経てS3にdistcpと氷河にそれを移動する必要があり、圧縮など
  • 見ます(hortonworks doc)Distcp and S3とその警告/警告をお読みください。特に、インクリメンタルなdistcpはチェックサムベースではなく、atomic distcpはそうではありません。本当に遅いdistcpです。
関連する問題