2012-06-14 9 views
6

EC2は、分散可能な(並列化可能な)プロセスを実行するための非常に便利でオンデマンドのスケーラブルなメカニズムを提供し、S3は信頼性の高いストレージサービスを提供します。高速で信頼性の高いS3からEC2接続を確立する方法

私はETL &分析プロセスにEC2ノードを採用しようとしていましたが、このプロセスでは大量のデータ(100GB〜1TB)が非常に迅速に(1日数回)摂取され、短い期間。

上記設計は

  1. S3とEC2との間の高帯域/高速接続を必要とします。
  2. コストを節約するだけでなく、SLAが関与しているため、できるだけ早く開始、ポンピングインデータ、実行プロセスおよび終了ノードのスケジューリングを行う必要があるため、S3 - > EC2接続も信頼性が高くなければなりません。

しかしはまだ

  1. S3からデータを引っ張っする唯一の手段は、http経由であると思われるので、それがEC2のノードのダウンロード帯域幅によって制約されます。
  2. また、データの摂取はインターネットを経由するため、厳密なスケジューリングの目的では十分に信頼性が低く、ジョブ間で適切なバッファリングが必要になる可能性があります。

プライベートデータセンターの設定では、ストレージノードと物理ノードの間の専用線をより高速に設定できます(例:10Gbps)。

上記の要件を満たすことができるawsの場合、可能な代替/サービスオプションはありますか?

答えて

5

同じ物理サーバ上の他のEC2インスタンスがどれくらいのネット​​ワークアクティビティを実行しているか、いつでも同じ特定のS3ノード、あなたが同じであるかどうかあなたのS3エンドポイントとしての地域など。

あなた自身をベンチマークすることはできますが、それでも多くのことが変わります。私は時々毎秒複数メガバイト、他の時には数百キロバイトを得ました。

+0

アマゾンhaventはそのウェブサイト上でこのことについては何も発表され、取得する任意の他のソースがありますこの情報には、柔軟な転送速度の選択を可能にする異なる価格モデルがありますか。 – sandeepkunkunuru

+1

**それは**変化するので、そのような情報はありません。AWSのネットワーク速度を向上させる唯一の方法は、サーバ間で10ギガビットの接続を持つクラスタインスタンスを使用する方法と、AWSの高価な専用インスタンス(http://aws.amazon.com/dedicated-instances/)を使用してエフェクトを制御する方法ですあなたのサーバー上の他の人の – ceejayoz

2

少なくとも私はこれを最近見つけました(ただし、いつか利用可能かもしれませんが)。 CloudberryはS3からEC2にデータを転送する本当に高速な方法を提供します。速度は40MBPSから50MBPSの範囲です。ここにそのプロセスがあります。 http://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspxからcb s/wをダウンロードしてください。 S3に接続します。ファイルが表示されたら、コピーするファイルを右クリックしてウェブを選択します。これは、ファイルのWeburlを表示します。全体のURLをコピーして、AWS VMの利用のwgetのURLコンテンツ(wgetの[コピーしたURL]

を得るために、私はまだS3にVMからデータをコピーするためのツールを探しています。S3cmdが遅く、あまりにも頻繁に壊れる。

+0

質問には答えてもらえませんが、おそらく私が推測する人には役に立ちます。 – rainkinz

+0

これは面白いです...あなたが言っていることは、S3ファイルをURLを使って直接アクセスすることは、S3cmdを使用するよりもはるかに高速で(信頼できる)ことです。これはおそらくクラウドベリーそのものとはほとんど関係がないかもしれませんが、アクセスネイティブ/ apiとREST/htttpの性質、EC2ノードとS3のダウンロードとアップロードの速度はほとんどの場合悪いことではありません。 – sandeepkunkunuru

+0

実際にs3cmdにはネイティブインタフェースがありません(独立した独立したオープンソースツールです)。実際、唯一のプロトコルはhttpのようであるが、その場合、ツール間の違いを理解することは難しい。 wget、curl、aws sdk、s3cmdなど。ツールが実行可能でないかバグではない可能性を除いて。 – sandeepkunkunuru

3

私はより良い答えは今そこにあると思います。

信頼性の高いデータ転送を提供し、別のサービスData pipelineは、ありS3とEC2の間

関連する問題