2012-04-15 11 views
0

ウェブサイトからデータを抽出したい。 URLはhttp://www.example.com/ですだから私はこのURLをstart_urlsに入れました(ドキュメントのDMOZの例を参照)。しかし、文字列を入力してボタンをクリックするとGUIを作成して、その文字列をstart_urlsに追加し、このようにアクセスできるすべてのページを抽出します。http://www.example.com/computer/page-1。どうすればループを使ってこれを行うことができますか?私はstart_urlsにURLをもっと入れてみて、それがうまく動作しているかどうかをチェックしようとしましたが、うまく反応しません。ときには応答が得られないことがあります。それについての考えは?ウェブサイトから複数のウェブページをクロールする

答えて

0

ループを使用してこれを行う方法は?

友人、それはいくつかのループだろう。真剣に、私は既存のオープンソースのスクリプトとこれを行うアプリケーションを調べることを検討するだろう。あなたは容易にを見ることができ、どのようにそれを行うことができるのか考えているでしょう。もちろん、あなたはどんな感じでも作ることができます、あなたがほしいと思うすべて。私は確かにそこに利用可能なウェブスパイダーソリューションの多くの例があります。私の限られたツールセットでは、おそらく何かのbashやperlスクリプトで制御されたwgetで何かをハッキングしようとしますが、それは私です、そして、多くの人にとって必ずしも有利ではありません。

'タスク'自体については、本当に自分自身でコード化したい場合は、サブタスクで分割することを検討してください。 このタスクを実行するアプリケーションは2つあります。たとえば、あるアプリケーションにリンクを保存させ、もう1つのアプリケーションにスパイダーの「フェッチャー」を持たせることができます。

「ループ」という言葉を考えないでください。プロジェクトのこの段階ではまだループはありません。

Windows用のCygwin/GnuToolsがインストールされている場合、私はwgetがこれを行うためにスクリプト化されている可能性が高いと思っていたように、テキストリンクのリストを見て、css、画像、おそらくjsを取得します。

もちろん、これがすべてコマンドラインからうまくいきましたら、フレンドリーな方法でフロントエンドにアクセスしたいと思うかもしれません。使用している言語/テクノロジスタックによっては、さまざまなオプションがあります。それは私が入り込まない別の話題です。

願わくは、これがうれしい!一言で言えば

は、あなたのニーズに依存など

0

Sourceforgeの、gitのハブ、グーグル、上の既存のオープンソースのWebスパイダリングressourcesを検索することができ、Netwoofはあなたのためにそれを行うことができます。リンク、複数のresutlsページなどでループすることができます...それは完全に自動化され、APIを生成し、構造化されたデータの中で壊れていないデータを修飾することさえできます。

関連する問題