Hadoop for Business Intelligenceの設計の検討事項

私はデータウェアハウジングとビジネスインテリジェンスに関するさまざまな技術を検討しており、Hadoopと呼ばれるこの斬新なツールを使用しています。 HadoopはBIの目的では正確に構築されていないようですが、このフィールドに潜在的な可能性のある参照があります。（http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488）。Hadoop for Business Intelligenceの設計の検討事項

私はインターネットから得た情報はほとんどありませんでしたが、ハープアウトは伝統的なBIソリューションのスペースで破壊的な技術になる可能性があると私に伝えています。このトピックに関する情報はあまりありません。したがって、私は、Oracle Exadata、verticaなどのような従来のバックエンドBIインフラストラクチャと比較して、HadoopのBIツールとしての可能性についてGuruの考えを集めたかったのです。

設計上の考慮事項 - - どのように設計するのHadoopとのBIソリューションは、従来のツールとは異なります手始めに、私は、次の質問をお願いしたいと思いますか？私はHadoopでスキーマを作成できないということを読んで、それが異なっていなければならないことを知っています。私はまた、Hadoop用のETLツールを完全になくすことが大きな利点だと読んでいます（これは本当ですか？）Hadoop + pig + mahoutが必要ですか？

ありがとうございました&よろしく！

編集 - 複数の質問に分割します。私は一番の悪いと思います。

出典

2011-06-18 Jai

あまりにも多くの質問があります。 @Mat - 同意しました。 – Mat

最もインパクトのあるものから始めます。 – Jai

HadoopはBIソリューションの一部となる素晴らしいツールです。 BIソリューションそのものではありません。 HadoopはData_Aを取り込み、Data_Bを出力します。 Biには必要だが有用な形式ではないものはMapReduceを使用して処理し、有用なデータ形式を出力することができます。 CSV、HIVE、HBase、MSSQL、またはデータを表示するために使用されるその他のものであれば可能です。

私は、HadoopがETLツールであると考えています。それが私たちが使っているものです。毎時のログファイルを処理し、それをHiveに保存し、MSSQLサーバーにロードされ、可視化レイヤーを介して表示される毎日の集計を実行します。

私はに対して実行した主要な設計上の考慮事項は以下のとおりです。
- データ柔軟性：はあなたのユーザーが事前に集計データを表示したり、クエリを調整し、彼らが望むどのようにデータを見て柔軟性を持たせたいですか
- 速度：ユーザーがデータをどれくらい待つのですか？ハイブ（例えば）は遅いです。かなり小さなデータセットであっても、結果を生成するには数分かかります。トラバースされるデータが大きくなればなるほど、結果を生成するまでに時間がかかります。
- 視覚化：どのタイプの視覚化を使用しますか？カスタムをたくさん作り、棚から何かを使用できるようにしたいですか？視覚化にはどのような拘束と柔軟性が必要ですか？視覚化はどのように柔軟性があり、変更可能である必要がありますか？

HTH

更新：たちが効果的HBaseの中に格納されたデータを利用できるようになる視覚化ツールの欠如だった
...可視化の欠如について尋ね@ Bhatさんのコメントへの応答として私たちのソリューションを再評価する際の大きな要因です。生データをハイブに保存し、データをあらかじめ集約してHBaseに保存しました。これを利用するために、カスタムコネクタ（この部分を行った）と可視化レイヤーを作成する必要がありました。私たちは、私たちが生産できるものと市販されているものを見て、商業ルートを行った。
Webログを処理するためにETLツールとしてHadoopを使用していますが、それは素晴らしいことです。私たちはETLの生データを、私たちのデザインでHiveとHBaseの代わりになる商業的なビッグデータデータベースに送ります。

HadoopはMSSQLや他のデータウェアハウスのストレージと実際には比較されません。 Hadoopはストレージを何もしません（HDFSを無視して）、データの処理を行います。 MapReducesの実行（Hiveは）MSSQL（またはそのような）よりも遅くなるでしょう。

出典

2011-06-20 17:31:55 Nija

それは面白いです。ありがとう。視覚化ツールが利用できなかったことが、Hadoopの生の出力を使用しなかった大きな理由の1つで、それをETLツールとして使用するのはなぜですか？ HadoopはMSSQLのデータや倉庫と比較して常に遅くなりますか？ – Jai

スピードの質問は本当に多くのことに依存します。 MapReduceジョブの開始に伴うレイテンシは比較的高いので、MapReduceジョブを開始する必要がある場合、たとえ最も簡単なHiveクエリ（たとえ）でさえ瞬時になることはありません。あなたがテラバイトのデータを持っているなら、MSSQLのようなものはうまくスケールされませんが、Hadoop/Hiveは（マシンを追加することによって）うまくいくでしょう。まだ、ハイブはインデックスのようないくつかの分野で優れたサポートを欠いています。 VerticaやTeradataのようなものはパフォーマンスが良いかもしれませんが、$$$です。 – ajduff574

@ ajduff574：速度はHadoop/Hiveを使用して変更する「最も簡単な」側面です。 :)上記の3つの理由からHStackからHadoop/Vertica/Tableauへの切り替えが行われています。 – Nija

Hadoopは、ファクトテーブルを表す巨大なファイルを格納するのに非常に適しています。これらのテーブルは、テーブルを表す個々のファイルを別々のディレクトリに配置することによってパーティション化できます。 Hiveはそのようなファイル構造を理解しており、パーティション表のようにそれらを照会することができます。 Hiveを使用してBI質問をHadoopのデータ形式でSQLクエリの形で表現できますが、時にはMapReduceジョブを作成して実行する必要があります。

出典

2011-06-20 14:06:10 Olaf

ビジネスの観点から見ると、価値の低いデータが多い場合は、Hadoopを検討する必要があります。 RDBMS/MPPソリューションが費用対効果に優れていないケースは多いです。データが構造化されていない場合（例：HTML）、Hadoopを重大なオプションと考えるべきです。

出典

2011-06-22 12:38:51

我々はビッグデータ/ Hadoopの http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html

それは進行中の作業であるため、BIツールの比較マトリックスを作成していると、任意の入力を大好きです。

（免責事項：私はこのオンラインブックの著者です）

出典

2013-10-29 07:08:24