2009-08-24 15 views
3

Wikipediaのページのサブセット(100MBなど)はどうすれば入手できますか?私はあなたがXMLとしてデータセット全体を得ることができることを発見しましたが、それは1または2ギグのようなものです。私はあまりそれを必要としません。Wikipediaのページのサブセットはどのように入手できますか?

マップリダクションアルゴリズムの実装を試してみたいと思います。

私は、どこからでも100メガバイト分のテキストサンプルデータを見つけることができれば、それも良いだろうと言っています。例えば。スタックオーバーフローデータベースが利用可能であれば、適切なサイズになる可能性があります。私は提案に開放されています。

編集:トレントではないものはありますか?私は仕事でそれらを得ることができません。

答えて

4

stackoverflowデータベースはdownloadで利用できます。

+0

これは激流です、私は仕事でそれらを得ることができません。 – Chris

+0

最新のダウンロードへのリンク:http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris

+0

ここで同じDBについて話していますか? – Leo

1

stackoverflowデータベースのコピーを取得する場合は、the creative commons data dumpから行うことができます。

あなたはこのデータを何の目的で使っていますか?

+0

mapreduceアルゴリズムを試してみたい – Chris

0

1つの選択肢は、Wikipediaダンプ全体をダウンロードし、その一部のみを使用することです。全体を解凍し、単純なスクリプトを使用してファイルを小さなファイルに分割するか(たとえばhere)、ディスク容量が不安な場合は、解凍してその場で分割するスクリプトを書くことができます。必要な段階で解凍プロセスを停止することができます。 Wikipedia Dump Readerは、Pythonに慣れている場合(mparser.pyを見てください)、解凍して処理するためのインスピレーションを得ることができます。

全体をダウンロードしたくない場合は、スケーリングのオプションが残っています。 Export featureがこれに役立つかもしれないし、wikipediabotもこの文脈で示唆された。

+1

ええ、私はオーストラリアにいるので、私たちのインターネットのダウンロード制限は、全体をたくさんダウンロードすることを排除します。そう言いましたが、私たちはすべて光ファイバーから家庭へのブロードバンドを(百万年の間に)手に入れています。それは私たちの国を壊してしまいます。/rant – Chris

+0

右。次に、エクスポート機能を調べます。私がそれを正しく理解すれば、サーバーと帯域幅の重さが軽くなり、クロールします。 – daphshez

0

ウェブクローラを使用して100MBのデータをスクラップできますか?

+0

あまりにも多くのサーバーを罰することに熱心ではありません! – Chris

2

クリス、あなたは100MBのウェブページを得るまで、ウィキペディアの「ランダムページ」リンクを打つ小さなプログラムを書くことができます:http://en.wikipedia.org/wiki/Special:Random。重複したものは破棄したいが、1分あたりのリクエスト数を制限することもできます(記事の一部はWikipediaサーバーではなく中間のWebキャッシュによって処理されます)。しかし、それはかなり簡単にする必要があります。

+0

あなたは知っている、それは悪い考えではない。それは素敵なサブセットを与えるだろう。私はそれが単に永遠にかかると思う、それは私の唯一の問題です。 – Chris

0

多くのウィキペディアダンプがあります。なぜあなたは最大の(英語のwiki)を選びたいのですか?ウィキニュースアーカイブはずっと小さくなっています。

関連する問題