私は大きなテーブルを持っています(2M +レコードには列があります)。重複除外の目的でGROUP BYを実行するつもりです。次の2つの戦略のどちらが優れているか知りたいですか?複数の列(col_a、col_b、col_c) PostgresのGROUP BYのパフォーマンス
- GROUPはcol_a、col_b、col_cを用いて形成された正規化された文字列からなる新しい列dedup_colを追加しdedup_colにGROUP BYを行います。 dedup_colには事前に入力されます。
私はベンチマークを実行することができますが、実装を開始する前に理論的な入力をしたいと思います。
はまた、チェックアウト:http://www.postgresonline.com/journal/archives/22-Deleting-Duplicate-Records-in-a-Table.html –