Wikipediaのページのサブセットはどのように入手できますか？

Wikipediaのページのサブセット（100MBなど）はどうすれば入手できますか？私はあなたがXMLとしてデータセット全体を得ることができることを発見しましたが、それは1または2ギグのようなものです。私はあまりそれを必要としません。Wikipediaのページのサブセットはどのように入手できますか？

マップリダクションアルゴリズムの実装を試してみたいと思います。

私は、どこからでも100メガバイト分のテキストサンプルデータを見つけることができれば、それも良いだろうと言っています。例えば。スタックオーバーフローデータベースが利用可能であれば、適切なサイズになる可能性があります。私は提案に開放されています。

編集：トレントではないものはありますか？私は仕事でそれらを得ることができません。

出典

2009-08-24 Chris

stackoverflowデータベースはdownloadで利用できます。

出典

2009-08-24 04:29:18 Alex

これは激流です、私は仕事でそれらを得ることができません。 – Chris

最新のダウンロードへのリンク：http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris

ここで同じDBについて話していますか？ – Leo

stackoverflowデータベースのコピーを取得する場合は、the creative commons data dumpから行うことができます。

あなたはこのデータを何の目的で使っていますか？

出典

2009-08-24 04:31:41

mapreduceアルゴリズムを試してみたい – Chris

1つの選択肢は、Wikipediaダンプ全体をダウンロードし、その一部のみを使用することです。全体を解凍し、単純なスクリプトを使用してファイルを小さなファイルに分割するか（たとえばhere）、ディスク容量が不安な場合は、解凍してその場で分割するスクリプトを書くことができます。必要な段階で解凍プロセスを停止することができます。 Wikipedia Dump Readerは、Pythonに慣れている場合（mparser.pyを見てください）、解凍して処理するためのインスピレーションを得ることができます。

全体をダウンロードしたくない場合は、スケーリングのオプションが残っています。 Export featureがこれに役立つかもしれないし、wikipediabotもこの文脈で示唆された。

出典

2009-08-24 05:06:41 daphshez

ええ、私はオーストラリアにいるので、私たちのインターネットのダウンロード制限は、全体をたくさんダウンロードすることを排除します。そう言いましたが、私たちはすべて光ファイバーから家庭へのブロードバンドを（百万年の間に）手に入れています。それは私たちの国を壊してしまいます。/rant – Chris

右。次に、エクスポート機能を調べます。私がそれを正しく理解すれば、サーバーと帯域幅の重さが軽くなり、クロールします。 – daphshez

ウェブクローラを使用して100MBのデータをスクラップできますか？

出典

2009-08-24 05:08:59

あまりにも多くのサーバーを罰することに熱心ではありません！ – Chris

クリス、あなたは100MBのウェブページを得るまで、ウィキペディアの「ランダムページ」リンクを打つ小さなプログラムを書くことができます：http://en.wikipedia.org/wiki/Special:Random。重複したものは破棄したいが、1分あたりのリクエスト数を制限することもできます（記事の一部はWikipediaサーバーではなく中間のWebキャッシュによって処理されます）。しかし、それはかなり簡単にする必要があります。

出典

2009-08-24 05:39:29

あなたは知っている、それは悪い考えではない。それは素敵なサブセットを与えるだろう。私はそれが単に永遠にかかると思う、それは私の唯一の問題です。 – Chris

多くのウィキペディアダンプがあります。なぜあなたは最大の（英語のwiki）を選びたいのですか？ウィキニュースアーカイブはずっと小さくなっています。

出典

2011-02-24 08:44:10

Wikipediaのページのサブセットはどのように入手できますか？

答えて

関連する問題