2011-12-09 7 views
0

私の仕事では、さまざまなソースから頻繁に大きなデータセットを送受信しています。私が尋ねられるよくある質問は、「データのフォーマットは何ですか?」です。大規模なデータセットを外部と交換するための適切なフォーマットですか?

私は通常、TSV、CSVまたはXML形式のデータを要求します。私はこれらをMS SQLベースの環境に簡単にインポートすることができます。

私の主な考慮事項が1)インポートの容易さ2)データの整合性と3)サイズ(ディスク上のもの)がもっと理想的なフォーマットですか?

+0

一貫した書式を提供すると、1つのスクリプトDを書いて、誰もが同じ書式D – xQbert

答えて

0

私は1年以上CSVで作業していましたが、1文字間違いが嫌い、インポートが失敗します。 XMLが重すぎます。 TSVはかなり良いですが、固定幅のテキストファイルを選択できるのであれば、テーブルに読み込んだり読み込んだりするのは簡単です。

0

タブまたはコンマで区切られたものは通常正しく動作します。輸入/輸出が容易なシステム。 、通常はを強調していますが、埋め込み改行や列区切りを含むデータは問題になります。タブ/コンマ区切りのデータは、他のソフトウェア(perlスクリプト、javascript、Excelなど)で「そのまま」操作することも簡単です。

XMLもかなり普遍的です。アングルブラケット税のために、それは膨張と人間が読むことができないことの両方に苦しんでいます。信号:ノイズ比はかなり低いです。また、XML対応のソフトウェアで処理や操作が必要です。プラスの側面では、XMLにはデータ型を明示的に識別する機能があります。システム間でデータを転送するときに、日付/時刻の値が問題になることがあります。 XML [想定されるように、ドキュメント制作者の自主的な適合に依存している]は、日付/時刻値の表示を標準化している(ISO 8601、ありがとうございます)。

しかし、別のオプションを忘れてしまった:JSON、YAMLまたは他の軽量マークアップ言語を使用する。

関連する問題