は、私は、このコマンドwget linuxコマンドでWikipediaのページをミラーリングするには?
wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index
を使用しますが、私は唯一のジャークであると再帰的にgobblingから人々を保つためにwget
に
は、私は、このコマンドwget linuxコマンドでWikipediaのページをミラーリングするには?
wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index
を使用しますが、私は唯一のジャークであると再帰的にgobblingから人々を保つためにwget
に
Robot exclusion is on by default のrobots.txtこのファイルを取得wgetのLinuxコマンド とウィキペディアのページをミラーリングします他の人のウェブページとそれらのバンド幅をアップしてください。
あなたの.wgetrc
ファイルでそれをオフにすることができ、またはあなたのようにwgetの-e
スイッチを使用します。これは、ウィキペディアがあなたのwgetのdoesnことを保証するための場所で、さらに安全ガードを持っていないと言っているわけではない-e robots=off
再帰的にすべてをダウンロードするのではなく、wgetがrobots.txtとmetaを尊重するのを防ぎます。
まだ壁に当たったら、おそらくユーザーエージェントやその行に沿って何かをしっかりと動かしてください。
しないでください。これはWikipedia Webサーバーに大きな負荷をかけ、あなたのIPはブロックされます。
ウィキペディアのミラーが必要な場合は、データベースのダンプをhttps://dumps.wikimedia.org/からダウンロードしてください。あなたが唯一の特定のページからのデータが必要な場合は、the MediaWiki APIの使用を検討して
https://dumps.wikimedia.org/enwiki/20160407/
:英語のwikiの最新の完全なダンプが、今のように、で入手可能です。
ウィキペディアはそのような行動を好まない。代わりに、さまざまな種類のダンプを提供します。 [ここ](https://dumps.wikimedia.org/)を参照してください。 – gudok