2016-04-17 7 views
0

Hadoopでの作業のためにwikipediaからデータをロードしたいとします。私はいくつかのリンクを見つけました:http://www.kiwix.org/wiki/Main_Page#Wikipedia_fileshttps://archive.org/details/enwiki-20160113。しかし、私はそれがどのフォーマットになり、それをどのように扱うかはわかりません。ですから、疑問は誰でもウィキペディアを1つ以上のtxtファイルにダウンロードすることができるかどうかを知っていますか?wikiを1つ以上のファイルでダウンロードする

答えて

1

まあ、最新の完全版(別のダンプは20161101で進行中です)のダンプはこちらからダウンロードできます:https://dumps.wikimedia.org/enwiki/20161020/ 注:これにはメディアファイル自体は含まれておらず、この例は英語のみです他のサイトも利用可能です。

関連する問題