私はPythonを使ってWebをクロールする作業をしています。 Pythonバージョン3を使用しているときに問題が発生しました。そこで、私はどのバージョンのPythonがWebのクロールに適しているのかを知りたかったのです。あなたは標準のPythonディストリビューションのいずれかをインストールすることを選ぶならばBeautifulSoupとurllibを使用するために使用するPythonバージョンはどれですか?
答えて
私はPython 2.7への移行に反対する議論があると思います。特にWebクローリングの場合、Python 2.7に戻す必要があると思う理由はありません。
BeautifulSoup 4とlxmlはどちらもPython 3.5に完全に移植されています。
urllibは、Python 3.5で完全に機能します。あなたは、Python 2.7とPython 3.5にurllibのdifferences in the implementationがあることに注意してください。
ただし、urllibの代わりにRequestsパッケージを使用することをお勧めします。postは、その相違の一部を強調しています。
javascriptが必要なページを読み込む必要がある場合は、SeleniumもPython 3.5で動作します。セレニウムは、ヘッドレスブラウジング(例えば、PhantomJS)をサポートすることもできる。
Pythonの公式postもあります。あなたの判断に役立てることができます。
ありがとう:)私はそれらのリンクを徹底的に行くでしょう。 – ash1234
は、 は、あなたは、Python 2.7.3以降が、しかし、Pythonの3.0または 以降を使用していないことを確認してください。これらのバージョンはもちろん最先端のバージョンですが、 私たちが使用するパッケージの多くはPython 3.X のサポートをまだ持っていませんし、そうするまでは3.Xはそれほど魅力的ではありません。 のPython 3.Xで利用できる機能と利用できない機能について詳しくは、 Pythonのバージョンの選択を参照してください。
これは、websiteのもので、PythonのWeb-Crallingについて紹介しています。あなたのアドバイスを受けることをお勧めします。 Python 2.7。*は、追加のパッケージを使用する現時点でのアプリケーションに最適です。
- 1. Webページを認証するためにurllibを使用するPython
- 2. リクエストとBeautifulSoupを使用したPythonマルチスレッド
- 3. Python 3を両方のPythonバージョンがインストールされている場合に使用するために、どのようにscrapyを使用するのですか?
- 4. PythonとMySqlに使用するORMはどれですか?
- 5. urllibに見つかったリンクを使用させるにはどうすればよいですか?
- 6. socket ResourceWarningはPython 3でurllibを使用しています
- 7. PythonでPythonの特定のバージョンを使用するためのベストプラクティス
- 8. Python Requests/urllib - 帯域幅の使用量を監視する
- 9. インタフェースを使用するためにenumを使用するにはどうすればよいですか?
- 10. 使用するhadoopバージョンはどれですか?
- 11. Schemacrawlerに使用されるPythonのバージョン
- 12. デフォルトのエンコーディングを使用するコードを見つけるために使用するエンコーディングはどれですか?
- 13. beautifulsoupでPythonを使用して兄弟をマージする方法
- 14. BioPythonを使用するとUrllibエラーが発生する
- 15. UrllibとBeautifulSoupフレキシブルなurlopen()オプション
- 16. インストールなしでBeautifulSoupを使用する
- 17. pythonでurllibを使用しているときにパスワードで保護されたサイトを検出しました
- 18. urllibまたはURLからデータを取得するリクエストを使用する
- 19. python urllibを使用して検索ボックスを検索するには?
- 20. ディスクにアクセスするために使用するアドレッシングモードはどれですか?
- 21. Dynamic-Jasperとireport(jasper 4.1.1を使用)の両方を同時に動作させるために使用するJasper-Reportsのバージョンはどれですか?
- 22. Pythonでcreate_shortcut()を使用するためにどのlibをインポートしますか?
- 23. Pythonでurllibを使用してXMLをHTTPにポストする際の問題
- 24. Twisted/Zopeで使用できるPythonのバージョンは何ですか?
- 25. BeautifulSoup - Pythonを使用してページテーブルを使用してデータをスクラップする
- 26. Pythonでは、urllibを使用して、Webサイトが404か200かどうかを確認するにはどうすればよいですか?
- 27. 有効な値を返すために使用されるカッコ内のブロックはどのバージョンのCですか?
- 28. C++で使用するためにPythonからTensorflowグラフをエクスポート
- 29. Windows 7のプロキシ設定にアクセスするために使用するPythonモジュールはどれですか?
- 30. pythonを使用してGoogle検索スニペットを抽出するbeautifulsoup
バージョン2.7を試してください。これは、ほとんどのアプリケーションのバージョンに適しています。 –