私はwgetのコマンドを使用しようとしています。一部のWebサイトでは動作しますが、ほとんどの場合、index.htmlのみをダウンロードします。私はwget -rコマンドを試しましたが、動作しません。どのようにページ上のすべてのファイルをフェッチするか、またはファイルと対応するURLのリストをページに表示する方法はわかっていますか?なぜwgetはindex.htmlをダウンロードするWebサイトがいくつかありますか?</p> <pre><code>wget -p http://www.example.com </code></pre> <p>は、メインページ上のすべてのファイルを取得するために:
答えて
Wgetはウェブサイト全体をダウンロードすることもできます。しかし、これはサーバーに負荷をかける可能性があるため、wgetはrobots.txtファイルに従います。
wget -r -p http://www.example.com
-pパラメータは、画像を含むすべてのファイルを含めるようにwgetに指示します。これは、すべてのHTMLファイルがどのようにすべきか見えることを意味します。
robots.txtファイルでwgetを服従させたくない場合はどうすればよいですか?あなたは、単にこのようなコマンドを切っ= -eロボットを追加することができます。
wget -r -p -e robots=off http://www.example.com
として多くのサイトがサイト全体をダウンロードさせません、彼らはあなたのブラウザの身元を確認します。これを回避するには、上で説明したように-U mozillaを使用します。
wget -r -p -e robots=off -U mozilla http://www.example.com
多くのウェブサイトの所有者は、あなたがサイト全体をダウンロードしているという事実を好まないでしょう。大量のファイルをダウンロードしていると、サーバーが自動的にブラックリストに追加されることがあります。これを回避する方法は、ダウンロードするたびに数秒待つことです。 wgetを使用してこれを行う方法は、--wait = X(Xは秒数)を含めることです。
パラメータを使用することもできます。--random-wait待つ。コマンドにこれを含めるには:
wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com
あなたの答えをありがとう。私はあなたがいくつかの一般的なURL(例えばamazon.com)で言及した3つの方法を試しましたが、私が得るのはindex.htmlだけでした。他の提案はありますか? –
ここに同じ。 index.html – BigSack
@JayHリダイレクトされるアドレスは使用しないでください。 IEの場合は '' 'http:// amazon.com'''を使うと動作しません。なぜならあなたはwww.amazon.comにリダイレクトされるでしょうが、' '' http://www.amazon .com''それはすべてのサイトをダウンロードし始めるでしょう。 ロボットのファイルに従わないことは、 "礼儀正しい"ものではないので、想像以上にうまくいくわけではありません。 –
をあなたはデフォルトでindex.html
あるオプション--default-page=name
を見つけることができますthe wget manualにindex.html
を探している場合。たとえば、index.php
に変更できます。
--default-page=index.php
私はこのスレッドが古いであることを知っているが、とRiteshで言及されているものを試してください:それは私のために働い--no-クッキー
!
あなたが提供したリンクはホームページまたは/index.htmlです。したがって、index.htmlページのみを取得していることは明らかです。例えば "test.zip"ファイルのような実際のダウンロードでは、最後に正確なファイル名を追加する必要があります。たとえば、次のリンクを使用してtest.zipファイルをダウンロードしてください。
wget -p domainname.com/testあなたは完全なウェブサイトをダウンロードしたいときに実行するコマンドラインで、局所的な視聴のために利用できるように続き
wget --mirror
を使用した全ウェブサイトをダウンロード
を圧縮します。
のwget --mirror -p --convertリンク-P ./LOCAL-DIR http://www.example.com
-mirror:ミラーリングに適したオプションをオンにしてください。
-p:特定のHTMLページを正しく表示するために必要なすべてのファイルをダウンロードします。
-convert-links:ダウンロード後、ローカルの表示用に のリンクを変換してください。
-P ./LOCAL-DIR:指定したディレクトリにすべてのファイルとディレクトリにあなたは次のような状況の下で、これを使用することができ
wget -r -A
を使用して
ダウンロードのみ特定の種類のファイルを保存します:
すべての画像をWebサイトからダウンロードしてください:
ダウンロードサイトからすべてのビデオ、
- ダウンロードサイトからすべてのPDFファイルが
まずのwget -r -A.pdf http://example.com/test.pdf
ありがとうございます。 '--mirror'オプションは最終的に私のために働かせました。 – vergenzt
あなたはいつもようこそ@vergenzt :) –
、明確にするために、 index.html
とそのページのすべての必要な部分(画像など)をダウンロードすることが目的です。 -p
オプションは--page-requisites
に相当します。
ページの要件が必ずしもダウンロードされないのは、元のページ(CDNなど)とは異なるドメインでホストされることが多いからです。デフォルトではwget refuses to visit other hostsなので--span-hosts
オプションでホストスパニングを有効にする必要があります。
wget --page-requisites --span-hosts 'http://www.amazon.com/'
あなたがindex.html
をロードし、ローカルバージョンからのすべてのページの必需品の負荷を持ってできるようにする必要がある場合(例えば)img
のsrc属性内のURLがあるように、あなたは、--convert-links
オプションを追加する必要がありますがローカルバージョンを指す相対URLに書き換えられます。
オプションで、--no-host-directories
オプションを追加してすべてのファイルを単一の「ホスト」ディレクトリに保存するか、すべてのファイルを単一のフラットディレクトリに保存することもできます(--no-directories
オプションを追加)。
--no-directories
を使用すると、多くのファイルが現在のディレクトリにダウンロードされるため、出力ファイルには--directory-prefix
を使用してフォルダ名を指定することをお勧めします。
wget --page-requisites --span-hosts --convert-links --no-directories --directory-prefix=output 'http://www.amazon.com/'
貴重な答えをありがとう。私があなたに賞金を授与する前に、もっと一般的な情報を追加してください。たとえば、このリンクの下にある 'http:// indiabix.com/civil-engineering/questions-and-answers /'のように、wgetが各カテゴリ/章を訪れ、すべてのセクションをすべてのページからダウンロードするようにします(左側のサイドバーにあります)。画像では、質問に関係する数式の画像を含むすべての画像を意味することに注意してください。 * index.htmlのダウンロード後にダウンロードが停止する問題があります。 * –
@InsaneCoder再帰的なフェッチは他の一連の問題ですので、別の質問をして試してみてください。(私が理解しているようにそれは)オリジナルの質問が何を求めていたかではありません。 –
@InsaneCoder '--mirror'オプションを追加するのは最も簡単で、必要に応じて十分です。 –
もう1つの問題は、ミラーリングしているサイトがwww
なしのリンクを使用している可能性があります。あなたは
wget -p -r http://www.example.com
を指定した場合、彼らは「異なる」ドメインからなので、だから、任意のリンク(インターン)のページをダウンロードしないであろう。この場合、次に(www
せず)の代わり
wget -p -r http://example.com
を使用します。
正しい観察。これが私の問題の根本的な原因です。 –
index.html
しか入手できず、そのファイルにはバイナリデータ(つまり可読テキストはなく、制御文字のみ)が含まれているように見える場合は、おそらくgzip
圧縮を使用してデータを送信している可能性があります。
これを確認するには、cat index.html | gunzip
を実行して、読み取り可能なHTMLが出力されていることを確認します。
この場合、wget
の再帰機能(-r
)は機能しません。 gzip圧縮データを扱うにはwget
のpatchがありますが、まだ標準リリースには含まれていません。
- 1. - 私はメインページに</p> <p>をiFrameにするために行くために<code>Driver.switchTo().frame("XXXXX");</code>を使用している
- 2. 私は wgetの--save-クッキーを試してみましたカールとwgetの</p> <p>使用してURLを呼び出したいカールやwgetの
- 3. はプログラムで私はあなたには、いくつかの宝石のパスを表示するために</p> <pre><code>bundle show gem_name </code></pre> <p>を行うことができます知っているバンドラ
- 4. 正規表現:</p>ある <pre><code>\w but without _ </code></pre> <p>は、私が求めている</p> <p>「すべての文字がwは\に含ま_除いて、」:アンダースコア
- 5. 印刷できないキャラクターをwget出力で表示しない方法は?</p> <pre><code>wget http://some_url.com -q -O -output.txt -o /dev/null </code></pre> <p>しかし、画像がページのwgetであるとき、まだ非印刷可能caracters持つものを「表示」:私はいくつかのHTMLコンテンツを取得するために、bashスクリプトを作ってるんだ
- 6. オブジェクトは、私は自分のアプリケーションで<code>infragistics</code><code>igGrid</code>を使用しているが、私は</p> </blockquote>「_super」プロパティまたはメソッドをサポートしていません<code>javascript</code>エラー</p> <blockquote> <p>オブジェクトを取得しています<p>igGrid
- 7. "**/* /"と "** /"の違いは?出力は、少なくとも小さなサブツリーのために、同じように見える</p> <p><code>Dir.glob("**/*/")</code></p> <p><code>Dir.glob("**/")</code></p> <p>:ここ
- 8. Perlの文字列の乗算がundefで警告しないのはなぜですか?</p> <pre><code>$foo . '' </code></pre> <p>と</p> <pre><code>"$foo" </code></pre> <p>
- 9. 異なるビューは、ユーザーが、私はいくつかにアクセスしたくない司会者ではない場合、私はthis-</p> <pre><code>["ROLE_USER", "ROLE_MODERATOR", "ROLE_ADMIN"] </code></pre> <p>または</p> <pre><code>["ROLE_USER","ROLE_ADMIN"] </code></pre> <p>のように、サーバから3つの異なる役割を取得しています
- 10. なぜ私はこれを通貨で得るのですか?今までにユーロや英ポンドの通貨記号がありOpencartサイト</p> <p><a href="http://www.lutari.net" rel="nofollow">http://www.lutari.net</a></p> <p>を使用して
- 11. なぜ[:] = 1は[:] = '1'と根本的に異なるのですか? <code>a</code>が<code>['1']</code>ある最初のケースで</p> <pre><code>a = [] a[:] = '1' </code></pre><p>と</p> <pre><code>a = [] a[:] = 1 </code></pre><p>:
- 12. は、どのように私は<code>string</code>あるこの</p> <pre><code>var alldest = cc.returnallfullDestinations(mainElement).Split('|'); </code></pre> <p><code>returnallfullDestionations</code>のようなデータを取得していますC#
- 13. なぜstd :: uint32_tとuint32_tが異なるのですか?しかし、</p> <p><code>typedef std::uint32_t identifier;</code></p> <p>:
- 14. <strong><em>のMySQL</em></strong></p> <p>コードは以下のとおりであるに取り組んでいない
- 15. Gitは<<<<<<< HEADをファイルに追加し続けます
- 16. プリミティブリテラルのオートボックスにはパフォーマンスコストはありますか?理論的に</p> <pre><code>Map<String, Boolean> map = ... map.put("foo", true); </code></pre> <p>、<code>true</code>は<code>Boolean.TRUE</code>を挿入対ヒットわずかなパフォーマンスが得られ、autoboxedする必要があります:
- 17. Python dir()はJavaScriptでこれに相当しますか?</p> <pre><code>dir(django.auth.models) </code></pre> <p>、それはあなたの<code>models</code>の内側にすべてのものを与えるだろう、何かがあります:私は、Pythonについて愛した何
- 18. magentoバックエンドのconfig xmlデータを取得するにはどうすればよいですか?私は別のモジュールから、このラベルの値を取得したい</p> <pre><code><config> <sections> <dev> <groups> <my_module> <label>... </code></pre> <p>:
- 19. C#XML要素私は特に例えば<code><EmpTypeHeader></code>で<code>EmpList</code>タグの数と<code><EID>.</code></p> <p>を取得する必要がありますXMLノードに
- 20. LINQ ToListがここで使用されないのはなぜですか? <code>source</code>が<code>IEnumerable<T></code>ある</p> <pre><code>using(var iterator = source.GetEnumerator()) {...} </code></pre> <p>:
- 21. アンドロイド</strong>当社<strong>*私は</em>にswfファイル</strong> * <em>から<strong>コールを取得する必要があり
- 22. 異なるブローカーのキューからcelerydを読み取る方法はありますか?</p> <p>APPS_A < ----> RELAY < ----> APPS_B</p> <p>リレーがあり、よく、リレー、通過するメッセージ:
- 23. ファイルリダイレクトVS.</p> <pre><code>while(<>){ print; } </code></pre> <p>と私はこのようにリダイレクトしてファイルに渡す必要があります考えています:<code>./sort.pl < wordlist</code>を、それが持っている私はそうのようないくつかのファイルからSTDINにかかる<code>sort.pl</code>という名前のperlスクリプトを持って
- 24. 私は宝石のコマンドを入力するたびに、私はこのエラーを取得するように</p> <pre><code>gem "tilt" </code></pre> <p>または</p> <pre><code>gem "mysql" </code></pre> <p>として、宝石、未知のコマンド
- 25. :私はシステムを入手する必要があり、コマンドラインから</p> <pre><code>kubectl get pods -o json </code></pre> <p>の出力からフィールドを取得するために、どのようにJSONをパースするjsonpath
- 26. $( '#table> tr')セレクタが一致しないのはなぜですか? jQueryを使って</p> <pre><code><table id='table'> <tr> <td>..</td> </tr> </table> </code></pre> <p>JSコード:
- 27. 違い<p>何<em>textFieldShouldendEditing</em>と<em>textfieldDidEndEditing</em>の違いは、いつ各メソッドを使用する必要がありますか? <code>textFieldShouldendEditing</code>上</p>
- 28. マングースコレクションからスキーマを取り出す方法は?今私は、そのコレクションからスキーマを取得する必要があり、私は、ユーザーのコレクションを取得</p> <pre><code>var collection = mongoose.connection.db.collection("users"); </code></pre> <p>:
- 29. Tortoise svn <<<<をファイルに追加しています!
- 30. 最初に番号を設定せずに、いくつの変数を定義すればよいですか?</p> <p><em><strong></em> __ <em>_</em> ____</strong> [ボタン]</p> <p>テキスト[]</p> <p>テキスト2 []</p> <p>:
URLの例はありますか? – Fabien
これはあなたの[前の質問]とどのように違うのですか(http://stackoverflow.com/questions/11123477/how-to-get-a-list-of-all-paths-files-on-a-webpage-using- wget-or-curl-in-php)?それが同じ問題ならば、それを明確にするためにあなたの古い質問を編集してください。 –
[wgetまたはcurlを使用してWebページ上のすべてのパス/ファイルのリストをphpで取得する方法](https://stackoverflow.com/questions/11123477/how-to-get-a-list-of) -all-paths-files-on-a-webpage-wget-or-curl-in-phpを使用して) –