2008-08-15 16 views
12

私はいつも大きなデータセットを探して、さまざまなタイプのプログラムをテストしています。誰にも何か提案はありますか?大きなデータセット

答えて

10

netflix contestをご覧ください。私は彼らがコンテストを容易にするためにデータベースや大きなサブセットを公開したと信じています。

更新:Their faqには、ダウンロード可能なサブセットに1億件のエントリがあると言われています。

1

Fuzz Testingのランダムデータを生成したい場合があります。これにより、無制限にテストデータが得られ、エッジケースに当てはまる可能性が高くなります。

多分あなたが望むテストデータの種類、形式、アプリケーションの種類についてもっと詳しく知りたいですか?

1

ターゲットプラットフォームがわかりませんが、MSSQLデータベースに対して開発している場合は、Visual Studio for Database Professionalsをチェックしてください。これは、定義できるデータプランを使用してスキーマ用のデータを生成できる非常に優れた機能を備えています。

Redgateにはデータ生成ツールもありますが、私はそれを使用していません。

利点は、データ生成プランを作成し、それを使用して、スキーマの特定の領域をテストするために調整できる一貫性のある大量のデータをデータベースに取り込むことができることです。

1

また、theinfoをAaron Swartzがチェックアウトすることもできます。サイト

から

これは、大規模なデータセットとそれらを愛する 人のためのサイトです:スクレーパー とそれらを収集クローラー、それらを処理 学者やオタク、 デザイナーそれらを視覚化するアーティスト 。 彼らはヒントやコツを交換したり、 ツールを開発して共有したり、 の特定の プロジェクトの統合を開始する場所です。

2

私は、巨大なXMLファイルであるWikimediaダウンロードセットでいくつかの作業を行っています。残念ながら、そのダウンロードサーバーには現在ディスクスペースの問題があるように見えるので、多くのデータセットは利用できません。しかし、それが利用可能な場合、完全な履歴を持つ英語のWikipediaデータセット全体は2.8 TB(18 GB圧縮)です。

5

米国統計協会data expoのデータをご覧になりたい場合があります。過去20年間の米国のすべての商業航空便のフライト情報 - 1億2000万レコード、11ギガヘルツのデータ。

2

「publicdata」タグを使用してパブリックデータを含むユーザー(自分自身を含む)のタグページはdel.icio.usです。アーカイブhereが見つかり、そのタグhereのRSSフィードを購読できます。フィードを購読すると、Web上にポップアップする興味深いデータセットが安定して表示されます。

これらのデータセットはすべて大部分ではありませんが、しばしば興味深いものです。

0

入手しているデータの種類をパーソナライズする場合は、Kimono Labsをご覧ください。それはあなたが何の行についても返された行なしで無料で何かのサイトを掻き集めるのに使うことができるウェブスクレイピングソフトウェアです。 APIを設定するだけで(URLジェネレータを使用して一度に多数のURLをスクラップできます)、パーソナルデータセットをJSON、CSV、またはRSSとして利用できます。

関連する問題