2011-09-08 3 views
1

私はOLAPを初めて使うので、この質問に使用する正しい用語はわからないかもしれません。OLAP/MDXは、さまざまな集計レベルで未知の値を持つデータを処理するのに適していますか?

私は、親/集約セルに大部分はデータがあるが、子/葉セルにはデータが欠けていることが多い(属性値は不明だがゼロではない)、多次元データを扱っている。私は現在、スクリプトとSQLを組み合わせて使用​​していますが、扱いにくくなっています。 OLAPキューブのように思えますが、MDXは構造の方が適しています。のデータはですが、必ずしもというタスクにはありません。私はそれと関連があります。例:

  • OLAPは主に読み取り専用のレポート用に設計されているようです。私はバッチプロセスでデータに多くの変更を行います。
  • OLAPは集計を計算するために完全な葉レベルのデータを持つように思えます。私のデータは、さまざまなレベルで欠損値をしている私が何をしたいの

例:キューブに

  • ロードオリジナルのマルチレベルのデータを、既知の両親を維持します。子の計算集約としてその値を上書きしたり表示したりしないでください(不完全かもしれません)。
  • 他のキューブの複雑なクエリ/結合の結果に基づいて、キューブ内のセルを作成/更新/削除します。わずかに異なるディメンション定義を使用するようにキューブを変換する必要がある場合があります。
  • 未知の値の見積もりが必要です。まともな見積もりを作成することはできますが、すべてのディメンションとレベル(これは聞こえるよりもはるかに難しい)にわたって既知の親子に従うように調整する必要があります。私はすでにこれをやっていますが、RDBMSからデータを引き出してカスタム実行可能ファイルにします。
  • クエリと計算では、未知数を適切に処理できる必要があります。理想的には、集計されたセルの値が推定値と既知の値のどちらで構成されているかを簡単に照会できます。信頼度/エラー統計を計算したり、既知の親とすべてがある場合は未知数の正確な値を導き出すことができます既知の兄弟など
  • データは、最大で数千万のファクトテーブル行になる可能性があります。パフォーマンスは、バッチジョブではまともでなければなりません(分は大丈夫ですが、それほど時間はかかりません)。

OLAPサーバーとMDXは、このタイプの作業に適したツールですか?階層/多次元/ギャップ充填データを操作するための他のツールはありますか?いくつかのOLAPシステムのニーズ、興味深く、やりがい:-)だ

答えて

1

- キューブにオリジナルのマルチレベルのデータをロードし、知られている両親を維持します。子の計算集約としてその値を上書きしたり表示したりしないでください(不完全かもしれません)。

キューブが階層内の値を集計する方法を変更することができます。これを1つの階層で行うことは、複数の階層での使用が複雑になる可能性があるため、これを行うことです。複数の「特別な」階層を持つ問題に対する数学的な「独自の」解決策がある場合は、2回チェックする価値があります。

複雑なクエリ/他のキューブの結合の結果に基づいて、キューブ内のセルを作成/更新/削除します。わずかに異なるディメンション定義を使用するようにキューブを変換する必要がある場合があります。

ここでは書き戻し(MDX function Update cube)を使用できますが、あなたのニーズにはそれほど単純すぎると思います。実装はベンダーによって異なります。セルを作成すると、大きなキューブほど素早く数百万のセルをサブクエブに持つことができます。

モデルのスパース性とは何ですか? - >総セルのデータ/数

での細胞の数は、一部のモデルでは、1E-30のsparsitiesを持って、ここでそれはあなたがすべてのセルを;-)更新している場合、爆発するのは簡単です。

ユーザーは未知の値の見積もりが必要です。まともな見積もりを作成することはできますが、すべてのディメンションとレベル(これは聞こえるよりもはるかに難しい)にわたって既知の親子に従うように調整する必要があります。私はすでにこれをやっていますが、RDBMSからデータを引き出してカスタム実行可能ファイルにします。

これは複雑です。ここでの問題は、アルゴスの複雑さ、MDX言語を使用したソリューション、OLAP engigeとのマッチング方法(十分に速い)です。 Scope function

データが大きくなることがあります...数千万のファクトテーブル行がデータになります。パフォーマンスは、バッチジョブではまともでなければなりません(分は大丈夫ですが、それほど時間はかかりません)。本当の挑戦すべきではない

..

あなたの質問に答えるために、私はそうは思いません。遺伝的な分野でも同様の問題があります。私たちはOLAPソリューションに専用の計算モジュールを追加するという問題を解決しようとしています。それは、ポインタをありがとう行くプロジェクト

+0

に興味深いです。私は0.10 0.3の範囲にする傾向があるので、それはとてもではないOLAP/MDXはぴったりではないことを疑わが、私のデータのit.Theスパース性とより多くの経験を持っている専門家からのフィードバックを取得したいですスパース。いくつかのサンプルデータをOL​​APシステムにロードしていくつか試してみると思いますが、私はこの時点ではあまり期待していません。私は、同様のデータのカスタムモジュールについて聞いてみたいと思います。 –

関連する問題