私は与えられたウェブサイトからすべてのURLを抽出するためにPythonでプログラムを書いています。すべてのURLは、ページからではなくサイトからのものです。 私はそれをしたい最初の人ではないと思いますので、準備ができた解決策があるのか、自分でコードを書く必要があるのか疑問に思っていました。どのようにウェブサイトからすべてのURLを抽出するのですか?
答えて
それは容易ではないつもりだが、まともな出発点は、これら2つのライブラリを調べるために、次のようになります。私は上でこれを行う任意の既製のスクリプトを見ていない
PyQueryもHTTPセーバー生命であるに見えます://packages.python.org/pyquery/api.html ... jQueryのようにDOMをクエリできます – bchhun
クイックグーグル検索。
scrapy
フレームワークを使用すると、これはほとんど問題ありません。
時間のかかる部分は、治療法の使用方法を学習することです。あなたのチュートリアルは素晴らしいですが、あなたにはそれほど時間がかかりません。他の人が使用できるソリューションを作成
http://doc.scrapy.org/en/latest/intro/tutorial.html
は、プログラミングコミュニティの一員であることの喜びの一つです。私はスクレーパーが存在しないので、誰もがサイトからすべてのリンクを取得するために使用できるものを作成することができます!
あなたの答えはたくさんあります – user1119429
を取得する必要があります。
その後、Beautiful Soupを使用してURLを抽出できます。実際には、their tutorialは、具体的な例として<a>
要素で囲まれたすべてのリンクを抽出する方法を示しています。
for link in soup.find_all('a'):
print(link.get('href'))
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie
あなたも<a>
要素で囲まれていないリンクを見つけたい場合は、あなたがより複雑な何かを記述する必要がありますあなた自身の。
編集:私もちょうど、このタスクのために特別に作成された2つのScrapyリンク抽出クラスに出くわした:
- 1. ページのURLからウェブサイトのURLを抽出する方法は?
- 2. URLをウェブサイトから抽出しますか?
- 3. JSoupを使用してウェブサイトから段落を抽出するにはどうすればよいですか?
- 4. どのようにしてコード内のユーザーコントロールからすべてのJavaScriptコードを抽出しますか
- 5. 行列からrownamesをどのように抽出するのですか?
- 6. どのように親モジュールからすべてのサブモジュールを抽出できますか?
- 7. hpricotを使用してハイパーリンクからURLを抽出するにはどうすればよいですか?
- 8. PHPのURL文字列からクエリパラメータを抽出するにはどうすればよいですか?
- 9. データソースからすべてのデータを抽出するには?
- 10. javascriptで、どのようにxmlからそのような形式のデータを抽出するのですか?
- 11. URLからクエリを抽出する
- 12. リファラーURLからキーワードを抽出する
- 13. テキストファイルからURLを抽出する
- 14. ウェブサイトからExcelに2000ページの表を抽出する
- 15. アンカータグ内のすべてのimgタグを抽出するにはどうすればよいですか?
- 16. URLからドメインを抽出するにはどうすればよいですか?
- 17. .ipaファイルからカスタムURLスキームを抽出するにはどうすればよいですか?
- 18. URLからドメインを抽出するにはどうすればよいですか?
- 19. XMPからすべての値を抽出する
- 20. どのように私はFacebookからすべての公開ページのURLを取得するのですか?
- 21. iPhoneアプリでウェブサイトのHTMLソースを抽出するにはどうすればよいですか?
- 22. JavaDocからすべてのメソッドのリストを抽出します
- 23. BeautifulSoupの特定のパターンに一致するページからすべてのURLを抽出します。
- 24. regexを使ってPerlでプレーンテキストからURLを抽出する
- 25. FacebookのURLからすべてのコメントを取得するにはどうすればよいですか?
- 26. dllファイルからクラスのソースコードをどのように抽出しますか?
- 27. このページからURLを抽出するには
- 28. PHPの文字列からURLを抽出するには?
- 29. ディレクトリ内のすべてのマルチパートZIP/RARアーカイブをどのように抽出できますか?
- 30. PHP:YouTubeのURLからビデオIDを抽出
...また、 'scrapy' – inspectorG4dget