2012-04-28 2 views
0

Postgresデータベースに大きなイベントのデータセットがあり、メモリ内で解析するには大きすぎます。したがって、私は定期的な間隔にdatetimesを量子化し、結果を返す前にデータベース内の操作でグループ化を実行したいと思います。私はSqlSoupを使用して、適切なテーブルのレコードを繰り返し処理し、必要な変換を行うと考えました。残念ながら、すべてのレコードへの参照を一度にメモリにロードしないように、反復をどのように実行するかを理解できません。必要に応じてデータにアクセスして各レコードを更新するために、一度に1つのレコード参照を取得する方法はありますか?SqlSoupを使用したPostgresでのデータ変換

どのような提案も大歓迎です!

クリス

+0

基本的な問題を示すコードサンプルでは、​​誰かが具体的な提案をすることができます。 – kgrittn

+0

これは曖昧です。 *なぜ*「一度に行する」処理(反復処理)を実行したいですか?あなたのデータは実際にはグループ化やネスティングなしにレコードを複数の他のレコードに "指し示す"グラフがありますか?そして:10^7のレコードは、データベースにとって大きなものではありません。 – wildplasser

答えて

1

は、一部の人々と話をした後、それがより良い答えはローカルに自分のデータを処理し、集計する豚を使用することですかなり明確です。スケールでは、私はHadoopが適切なツールであることは明らかではないと考えていました。このことについて私が話した一人は、私が約10^7のレコードで動作しているスケールでは、ブタがデータベース内のオペレーションよりもはるかに速いオーダーになることを示唆しています。

関連する問題