再帰Webダウンロード以下のリンクは、DOMの基準に従って

MSDN is a huge hierarchical doc site.再帰Webダウンロード以下のリンクは、DOMの基準に従って

は、より正確には、コンテンツを階層的に組織化が、URLはありませんされています。 URLスペースはフラットなので、すべてが同じディレクトリにあるように見えます。（実際には、ディレクトリが存在しない可能性がありますが、他のデータベースからものが出てきていると思いますが、ここでは関係ありません）

MSDNの一部をダウンロードする場合は、NMake manual指定されたディレクトリの下のすべてを再帰的にダウンロードすることはできません。それはMSDNのすべてになるからです。あなたのハードドライブと帯域幅には多すぎます。

しかし、あなたはその後、CSS class属性toc_childrenとtoc_siblingsではなくtoc_parentのものと同様に、文書の特定のナビゲーションセクションに含まれているだけで、これらのリンクをたどると、ダウンロードするにはDOM（HTML）を見て、スクリプトを書くことができます。

何が必要だろうが、あなたが言うことができますいくつかのダウンローダのようになります。

$webclient->add_links($xpath_expression); # or 
$webclient->add_links($css_selector);

Perlの、LWPとXMLを使用して、一緒に何かを考え出すにはあまりにも難しいことではありません::のlibxml（HTMLパーサ）しかし、おそらくあなたはそれを再現する必要はないので、あなたはそれを行うことを可能にするツールを知っているかもしれません。

Perlである必要はありません。他の言語でも問題ありません。このジョブに必要な柔軟性を備えた既製のプログラムもあります。

出典

2012-04-09 Lumi

あなたは質問をするのを忘れてしまったようです。 – ikegami

@ikegami - 正確か、密なのか？私は「たぶん、そうすることができるツールを知っているかもしれない」と書いていますが、私は疑問符を忘れてしまったことは認めています。 – Lumi

いいえ、非常に正確なカスタム要件に一致する既存のツールはありません。しかし、ええ、私は密集しています。私はあなたの利益のために私が聞いた唯一の質問（私のコードを書くことができますか？）を意図的に無視しています。 – ikegami

WWW::Mechanizeからfind_link関数（および兄弟）を確認してください。任意の基準を使用して、 "id"および "class"属性を含むリンクを見つけることができます。

出典

2012-04-09 16:17:55 benrifkah

これはXPathやCSSセレクタを使用していないことを認識していますが、仕事を完了するためにそれらを必要としないかもしれません。 – benrifkah

ありがとう、 'WWW :: Mechanize'は私が最初に見たものでした。残念ながら、そのリンク仕様はDOM内のリンクの位置を考慮しません。リンクタグだけを見て、タグ内のタグの場所に関する情報はありません。 [HTML :: Parser]（https://metacpan.org/module/HTML::Parser）を使用します。これはDOMを構築しないので、必要な情報はありません。とにかくありがとう。 – Lumi

私はそれを考えましたが、リンク検索をDOMのサブセットに制限するのに必要なHTMLのサンプルがないと、100％明確ではありませんでした。 [Script Adam Gotch made]（http://perlbuzz.com/2011/11/finding-a-lost-dogs-owner-with-perl-and-wwwmechanize.html）を見て、WWW :: Mechanizeと[ HTML :: TreeBuilder :: XPath]（https://metacpan.org/module/HTML::TreeBuilder::XPath） – benrifkah

これは、あなたが正しい方向に向かっているか、迷っている可能性があります。最初にページをローカルファイルに保存して、作業中は常にダウンロードしないようにしました。

#!/usr/bin/env perl 

use strict; 
use warnings; 

use HTML::TreeBuilder::XPath; 

my $tree = HTML::TreeBuilder::XPath->new; 

$tree->parse_file('nmake-ref.html'); 

my @links = map { { $_->as_text => $_->attr('href') } } 
      $tree->findnodes(q{//div[@class='sectionblock']/*/a}); 

for my $link (@links) { 
    my ($entry, $url) = %{ $link }; 
    ($link->{ file } = "$entry.html") =~ s/[^A-Za-z_0-9.]+/_/g; 
    system wget => qq{'$url'}, '-O', $link->{ file }; 
}

出典

2012-04-09 17:26:07

Mojo::UserAgentは、CSS3セレクタまたはXPathを理解するものを返します。たとえば、Painless RSS processing with Mojoに例を示しただけです。私は本当にこの新しい（ish）Webクライアントのものを楽しんでいます。私が望むほとんどのものはすでにそこにあります（追加のモジュールはありません）。

出典

2012-04-10 00:01:09

おかげさまで、「Mojo :: UserAgent」をスタンドアロンの方法で使用することは考えていませんでした。しかし、はい、どうしてですか？ – Lumi

再帰Webダウンロード以下のリンクは、DOMの基準に従って

答えて

関連する問題