AWSでのCDHの展開に疑問があります。私はCloudera Engineering Blogで見つけたリファレンスアーキテクチャーとその他の資料を読んだが、それについてもう少し提案が必要だ。AWSでのCloudera CDHクラスタの構築:インスタンスとストレージ
1)CDHの配備は、ある種のインスタンスに対してのみ利用できますか、それともすべてのAWSインスタンスタイプに配備できますか?
2)24x7のアクティブなクラスタを作成したいとします。長時間実行しているクラスタでは、ローカルストレージインスタンスに基づいてクラスタを作成する方がよいと理解しました。私たちが2PBのクラスタを考えるなら、私はd2.8xlargeがデータノードにとって最良の選択であるべきだと思っています。マスターノードについて: - 3つのマスターノードのみを配備したい場合は、可能なマスターノードの障害に素早く対応できるように、ローカルストレージインスタンスまたはEBS接続インスタンスとして配備する方が良いでしょうか? - マスタノードのインスタンスタイプ(EBSまたはローカルストレージ)に関するベストプラクティスがありますか?データノードについて: - データノードに障害が発生した場合、ダウンタイムなしでクラスタを復元するために、新しいインスタンスを自動的にスピンアップしてクラスタに接続する自動化メカニズムがCDHにありますか?このことをするために、最初からスクリプトを作成する必要がありますか?エッジノードについて: - インスタンスタイプ(EBSまたはローカルストレージ)に関するいくつかのベストプラクティスがありますか?
3)S3でクラスタをバックアップしたい場合: - CDHからS3へのdistcpを実行すると、通常のS3ではなく氷河に直接データを移動できますか?データに圧縮(snappy、gzipなど)が適用されていて、S3へのdistcpを実行している場合: - S3に占有されている領域が同じであるか、またはdistcpコマンドがコピーのデータを圧縮解除していますか?
EBS接続インスタンスに基づいてクラスタを作成している場合: - ディスクをスナップショットで作成し、EBSディスクをスナップショットから再構築してデータノードを再接続することは可能ですか?
4)データノードがr4.8xlargeとして配備されており、より多くの馬力が必要な場合は、クラスタをr4.8xlargeからr4.16xlargeに大規模に拡大することは可能ですか?数分でディスクを接続したり取り外したりできますか?
ご清聴ありがとうございます。私の疑問が他のユーザーにも役立つことを願っています。