2016-09-20 9 views
1

まず、BigDataの機能について誤解を招くかもしれません。だから、あまりにも楽観的なら、私を訂正するのをためらってはいけません。BigDataワールド内のOLAPの最初のステップ

私は通常、特定の複雑な条件(いくつかのファクトテーブルへの参加)を満たしている特定の月の間、新しいクライアントの数を表示するような通常のKPIを使用します。

これらのリクエストは非常に動的なので、あらかじめ計算されたデータを予測する方法はありません。動的なレポートにはOLAPとMDXを使用します。動的な計算の価格はパフォーマンスです。ユーザーは通常、結果を1分以上待つ。

ここで私はBigDataに行きました。私はあいまいな結論に至るいくつかの記事、フォーラム、ドキュメントを読んだ。 BigDataには数秒でデータを処理するツールが用意されていますが、結合、事前協議などのBIタスクには適していません。ハープ・コンセプトなどの古典的なDWHはありません。

それにもかかわらず、それは理論です。私はKylinを見つけたので、実際に試してみることができます。私が掘り起こすほど、より多くの質問が出ます。それらの一部:

  1. プログラミングに関する知識(Java、Scala、Python)が必要ですか?
  2. 私はグラフィカルツールが必要ですか、sshアクセスで十分ですか?
  3. 私の100〜200ギガバイトのDB(ハードウェアの数)のニーズに合うハードウェア要件は何ですか?
  4. 最高のファイルシステム(ext4)は何ですか、私は気にする必要がありますか?
  5. RDBMSからデータを移行するにはどうすればよいですか?スマートETLはありますか?
  6. 最初に学ぶべき技術(豚、火花など)は何ですか?

実際に私は間違った質問をして構想を完全に誤解するかもしれませんが、良いリードを期待しています。 BIとBigdataの統合について、あなたが有用と考えるアドバイスをお気軽にお寄せください。

私は知っている約http://kylin.apache.org/docs15/index.html しかし、私はバックエンドのバックグラウンドなしでそれを試してみる気が気になりません。

答えて

0

Apache Kylinは、多次元解析を求める適切なツールです。ジョインと集計の事前計算が提供されるため、SQL/MDXクエリは数秒以内に戻ることができます。

Apache Kylinを使用するには、AdminとAnalystの2つの役割があります。管理者は、Hadoopクラスタを準備し、Kylinをその上に配備する必要があります。そのためには、HadoopとLinuxシェルに関する知識が必要です。クラスタのサイズとハードウェアは、データ量によって異なります。

インストールされると、アナリストはモデルを作成し、キューブし、SQLをKylinで実行できます。これには、リレーショナル・モデル、OLAP、およびSQLに関する知識が必要です。プログラミングは不要です。 KylinはODBC/JDBCインターフェイスをサポートしていますので、使い慣れたBIツールを使用してKylinのデータを視覚化することができます。

通常、初回ユーザーはApache KylinをHadoopサンドボックスで試用します。これは多くのHadoopの複雑さを防ぎ、時間を節約します。

0

Bigdataは大量のデータを意味します。bigdata hadoopの助けを借りて任意のタイプのデータを処理できます。しかし、OLAPは通常、より小さいデータで処理されます。 HiveとHBaseを利用するHadoopデータセットへのOLAPアクセス。

+0

コメントのようになります。 – Sunil

関連する問題