これはGoogle App Engineに適用されますが、必ずしもそれに制約されるものではありません。App Engineに適用される配賦(およびパーセンタイル)の償却を償却する?
Google App Engineでは、データベースはリレーショナルではないため、集計関数(合計、平均など)は実装できません。各行は互いに独立しています。合計と平均を計算するには、データベースに書き込む個々の書き込みごとに再計算し、常に最新の状態になるように計算を単純に償却する必要があります。
パーセンタイルと頻度分布(つまり密度)の計算方法について教えてください。私は、値のフィールドの密度のグラフを作成したいと思います。この値のセットはおそらく数百万のオーダーです。データセット全体をループすることができます(各クエリの制限は返されます)。それに基づいて計算されますが、私はむしろスマートなアプローチをとっています。
ある期間にわたって計算できる密度/頻度/百分位数分布を計算または近似するアルゴリズムがありますか?
ちなみに、データは、最大値と最小値がすべての場所にある可能性があるため不確定です。したがって、配布はデータの約95%を占め、それに基づいて密度のみを行う必要があります。
GAEは、処理に要する時間とデータストアのCPU時間を制限します。すべてがhttpリクエストとして行われるため、リクエストごとにチャーンできるデータは非常に限られています。大規模な仕事を複数の業務に分け、結果を組み合わせるのは、より簡単なアプローチがあれば面倒です。 –