ストリーム私は現在、データ工学に侵入しようとしていると私はこれを行うための最善の方法は、Hadoopのスタックの基本的な理解を得ることだった考え出し(ClouderaのクイックスタートVM /で遊んチュートリアルを行ってきました)私自身のプロジェクトを構築しようとします。私は、Twitterデータを取り込み、HDFSまたはHBASEに保存し、保存されたデータに対して何らかの分析を実行するデータパイプラインを構築したいと考えています。私は、リアルタイム/ストリーミングデータではなくリアルタイムのストリーミングデータを使用することをお勧めします。私のデータフローは次のようになります:ビッグデータプロジェクトの要件は、
Twitter Stream API --> Flume --> HDFS --> Spark/MapReduce --> Some DB
これはデータを持ち込んで分析するのに適していますか?
また、どのように私はホスト/これをすべて保存することをお勧めしますか?
hadoopを実行するためにAWS ec2で1つのインスタンスを持つ方がよいでしょうか?デスクトップ上のローカルVMですべてを実行する必要がありますか?
開始するノードクラスタを1つだけにする予定です。
Hadoopはまったく必要ありません。あなたの前の質問はあなたがスパークを持っていることを示しています。 http://bahir.apache.org/docs/spark/current/spark-streaming-twitter/ –