2016-05-04 15 views
0

は、私は、このコマンドwget linuxコマンドでWikipediaのページをミラーリングするには?

wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index 

を使用しますが、私は唯一のジャークであると再帰的にgobblingから人々を保つためにwget

+0

ウィキペディアはそのような行動を好まない。代わりに、さまざまな種類のダンプを提供します。 [ここ](https://dumps.wikimedia.org/)を参照してください。 – gudok

答えて

1

Robot exclusion is on by default のrobots.txtこのファイルを取得wgetのLinuxコマンド とウィキペディアのページをミラーリングします他の人のウェブページとそれらのバンド幅をアップしてください。

あなたの.wgetrcファイルでそれをオフにすることができ、またはあなたのようにwgetの-eスイッチを使用します。これは、ウィキペディアがあなたのwgetのdoesnことを保証するための場所で、さらに安全ガードを持っていないと言っているわけではない-e robots=off

再帰的にすべてをダウンロードするのではなく、wgetがrobots.txtとmetaを尊重するのを防ぎます。

まだ壁に当たったら、おそらくユーザーエージェントやその行に沿って何かをしっかりと動かしてください。

+0

私は、ウィキペディアが再帰的なゴブリングを避けることを望みます。 – Smandoli

+0

OPはそれをテストに入れます。あなたがwikipediaのすべてに必要なハードドライブの大きさが不思議です... – JNevill

+0

@JNevill完全にレンダリングされたHTMLページとして、何十テラバイトにもなるすべてのもの(ページ履歴を含む)をダウンロードしようとすると、おそらく数百以上。 – duskwuff

3

しないでください。これはWikipedia Webサーバーに大きな負荷をかけ、あなたのIPはブロックされます。

ウィキペディアのミラーが必要な場合は、データベースのダンプをhttps://dumps.wikimedia.org/からダウンロードしてください。あなたが唯一の特定のページからのデータが必要な場合は、the MediaWiki APIの使用を検討して

https://dumps.wikimedia.org/enwiki/20160407/

:英語のwikiの最新の完全なダンプが、今のように、で入手可能です。

+0

そして...なぜウィキペディアからページをホスティングするのが面倒なのですか?あなたのページは本物のものほど最新ではありません。 – Yetti99

+1

@ Yetti99あなたがしようとしていることに依存します。実行するデータに直接アクセスする必要があるという興味深い分析がたくさんあります。 – duskwuff

+0

私はちょうどそれをする方法を知りたいが、私はしません – almgwary

関連する問題