2011-06-27 29 views
0

大規模なグリッドデータセットのための適切なストレージフォーマットを探しています。アプリケーションは気象学であり、(他の人とデータを交換するのに役立つ)このフィールド内で一般的なフォーマットを好むでしょう。私は特別なデータ構造を扱う必要はなく、Fortran APIが必要です。私は現在、HDF5、GRIB2、NetCDF4を検討中です。大規模なグリッドデータセットのストレージ

これらの形式はデータ圧縮の点でどのように比較されますか?彼らの主な制限は何ですか?どのように急な学習曲線ですか?調査に値する他のストレージフォーマットはありますか?

これらのフォーマットの相違点と賛否両論の概要を説明している資料はありません(SO threada presentationはGRIBとNetCDFを比較しています)。

+0

HDF5のための素晴らしいFortranのラッパーがFUTILSと呼ばれる存在である - これは、並列HDF5 IOを使用することができるという犠牲にして、HDF5ファイルの多くを書いて簡素化します。 – Chris

答えて

3

私は気象学ではないんだけど、それは、例えばNERSCページを参照してください科学界はHDF5に向けて動いているように私には見えます申し訳ありません:

http://www.nersc.gov/users/training/online-tutorials/introduction-to-scientific-i-o/

私は同じ選択肢を取らなければなりませんでした私たちが歴史的にFITSを使用していたように、天体物理学のデータは、FortranとCだけでなくC++とPythonパッケージ(h5py)のAPIがあるので、HDF5を使用するのはかなり簡単です。

3

私は確かにそれが科学界の傾向と思われるHDF5と考えています。

また、HDF5にはフィルタ(圧縮フィルタを含む)が組み込まれているか、独自のフィルタを作成することもできます。

最後に、データセットがグリッド化されている場合に役立つ可能性があるため、HDF5の「チャンク」データセットを見てみましょう。

http://www.hdfgroup.org/

関連する問題