約500の異なるソースからデータをインポートするデータベースを構築するという面白い課題があります。リレーショナルデータベース設計パターンの質問 - 大規模な読み取り専用データベース
各ソースには独自のスキーマがあり、多くは非常に異なっています。しかし、それらはすべて共通のエンティティに関するデータです。
最初の考えは、典型的なエンティティ/属性/値スキーマですが、非正規化インポートを1つのソース(550k行)からAEVに変換した後、Attribute_Valueテーブルに3600万行あります。適切なインデックスを使用すると、これはまだ非常に高速ですが、これはこれまでの500のインポートソースのうちの1つに過ぎません。
私はこのスケールはと思っていませんが、非常に素敵な論理パーティショニングを行うためには、インポートソース間でジョインする必要はありませんので、理論的には50個程度のデータベースを構築できます。
私は大量のデータソースを扱ってきた人物を探しています。行数が何億人にものぼる場合の処理方法についての経験があります。
うん、それは彼らのためだ。そして、多くの道具と、大きくて成長している知恵の体があります。 – dkretz