ウェブサイトからデータを抽出したい。 URLはhttp://www.example.com/ですだから私はこのURLをstart_urls
に入れました(ドキュメントのDMOZの例を参照)。しかし、文字列を入力してボタンをクリックするとGUIを作成して、その文字列をstart_urls
に追加し、このようにアクセスできるすべてのページを抽出します。http://www.example.com/computer/page-1。どうすればループを使ってこれを行うことができますか?私はstart_urls
にURLをもっと入れてみて、それがうまく動作しているかどうかをチェックしようとしましたが、うまく反応しません。ときには応答が得られないことがあります。それについての考えは?ウェブサイトから複数のウェブページをクロールする
答えて
ループを使用してこれを行う方法は?
友人、それはいくつかのループだろう。真剣に、私は既存のオープンソースのスクリプトとこれを行うアプリケーションを調べることを検討するだろう。あなたは容易にを見ることができ、どのようにそれを行うことができるのか考えているでしょう。もちろん、あなたはどんな感じでも作ることができます、あなたがほしいと思うすべて。私は確かにそこに利用可能なウェブスパイダーソリューションの多くの例があります。私の限られたツールセットでは、おそらく何かのbashやperlスクリプトで制御されたwgetで何かをハッキングしようとしますが、それは私です、そして、多くの人にとって必ずしも有利ではありません。
'タスク'自体については、本当に自分自身でコード化したい場合は、サブタスクで分割することを検討してください。 このタスクを実行するアプリケーションは2つあります。たとえば、あるアプリケーションにリンクを保存させ、もう1つのアプリケーションにスパイダーの「フェッチャー」を持たせることができます。
「ループ」という言葉を考えないでください。プロジェクトのこの段階ではまだループはありません。
Windows用のCygwin/GnuToolsがインストールされている場合、私はwgetがこれを行うためにスクリプト化されている可能性が高いと思っていたように、テキストリンクのリストを見て、css、画像、おそらくjsを取得します。
もちろん、これがすべてコマンドラインからうまくいきましたら、フレンドリーな方法でフロントエンドにアクセスしたいと思うかもしれません。使用している言語/テクノロジスタックによっては、さまざまなオプションがあります。それは私が入り込まない別の話題です。
願わくは、これがうれしい!一言で言えば
は、あなたのニーズに依存などSourceforgeの、gitのハブ、グーグル、上の既存のオープンソースのWebスパイダリングressourcesを検索することができ、Netwoofはあなたのためにそれを行うことができます。リンク、複数のresutlsページなどでループすることができます...それは完全に自動化され、APIを生成し、構造化されたデータの中で壊れていないデータを修飾することさえできます。
- 1. ウェブサイトから複数のウェブページをクロールする
- 2. ウェブサイトから複数のページをクロールする(BeautifulSoup、Requests、Python3)
- 3. ウェブサイト全体のコンテンツをクロールする
- 4. pythonを使ってウェブサイトをクロールする
- 5. Scrapy - ウェブサイト全体をクロールする
- 6. 複数のドメインから単一のウェブサイト
- 7. ウェブサイトからウェブページをスクラップするためのスクラピーの再利用
- 8. 複数のウェブサイトからRSSフィードを取得する方法
- 9. 異なる深さの複数の開始URLをクロールする
- 10. Magento複数のウェブサイト
- 11. LAMP複数のウェブサイト
- 12. 複数のウェブサイトを接続する
- 13. 複数の画像をウェブサイトからダウンロードしてsqliteに保存
- 14. 詐欺師のクローラはウェブページをクロールしません
- 15. ウェブサイトをクロールして各ページのスクリーンショットを撮るには?
- 16. Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
- 17. クロール可能からAjaxウェブサイトへのJavascriptリダイレクトを使用する必要がありますか?
- 18. Ubuntu:複数のウェブサイトからフィールドを一括ダウンロードする方法は?
- 19. ウェブページからGoogle変数を読む
- 20. ウェブサイトにウェブページを表示する手順は何ですか?
- 21. 1つのウェブページで複数の挿入クエリを使用する
- 22. ウェブスクレイパーで複数のウェブページを使用する
- 23. 私のウェブページから別のウェブページのキーボードをシミュレートしますか?
- 24. 検索エンジンがウェブサイト全体をクロールするのを止めるには?
- 25. ウェブサイトの再クロールを短時間で行う
- 26. ウェブページ/ウェブサイトに.jarファイルを埋め込む
- 27. ウェブサイトのウェブページの内部テキストをプログラムで保存する
- 28. ウェブページからチャット
- 29. 重複するURLのクロールを避ける
- 30. マルチカウントのサイト - 複数のウェブサイトまたは複数の店舗?