web-scraping

1熱

2答えて

私はPythonリクエストモジュールを使用して電子商取引のWebサイトを削っています。私は、複数のノード間でテキストを抽出する際にいくつかの問題があります。次のhtmlは、私がテキストを抽出しようとしている部分です。私は2つの（p）タグとすべての（強い）タグに埋め込まれたdivクラス= "rte ingredients"の下のすべてのテキストを抽出する必要があります。注意を払う！（強い）タグは

0熱

1答えて

Jsoupを使用して本の著者を抽出するにはどうすればよいですか？

- 私Jsoupを使用して、このアマゾンのページで本の著者を抽出しようとしている：Link 私はtittlesこすりすることができました： public static final String URL_LITERATURE_FICTION="https://www.amazon.com/b/ref=s9_acss_bw_en_BGG15eve_d_1_6_w?_encoding=UTF8&node

0熱

1答えて

ドッカーのコンテナからローカルホストにスクラップされたデータのCSVファイルを保存します

私はさまざまなウェブサイトから記事を収集するためにPython Webscraperを実行し、次にCSVファイルとして保存します。私はこれらを手動で実行していますが、最近Googleのクラウドシェルで実行しようとしています。私は依存関係にいくつかの問題があったので、私は私のpythonスクレーパーを実行するドッカー画像を構築することを決めたこれまで、私はすべての必要な依存関係を持つコンテナを構築

0熱

1答えて

CSVのキーワードリストから検索エンジンの最初のイメージを解析するPythonスクリプト

検索エンジンから自分のローカルディレクトリにイメージを保存するはずのこのコードを以下に示します。ただし、それは16進ファイルとして保存されます。私はコードを混乱させて幸運になることができますが、ここの誰かが私に最善の解決策を与えることを願っています。メモ帳++で16進ファイルを開くと、16進ファイルの最初の行に "‰PNG"と表示されます。私は手動でファイルの拡張子を変更し、正しい画像が表示され

0熱

1答えて

BSを使ったPython Web掻き取り

私は複数のページを取得するWebスクレイピングプログラムを持っていますが、whileループを数値に設定する必要があります。最後のページに到達したらループを停止する条件を作りたい、または掻き取る項目がもうないことを認識したい。私はいくつのページが存在するか分からないと仮定します。どのように乱数を入れずにwhileループ条件を停止するように変更するのですか？私はreplace(","," ")を使用す

-2熱

1答えて

セレニウムpython get weird

このコードは、Google翻訳を掻き集めるためのものです。セレンを使用して、特定の単語の可能なすべての翻訳をスクラップします。ここではコードです： from selenium import webdriver driver = webdriver.Chrome("E:\Tutorial\Driver\chromedriver.exe") words = ['girl', 'cat', '

-1熱

1答えて

ページをスクラップし、hrefをクリックしてhrefsデータを取り込みます

私はページをスクラップし、タグ内のhrefsデータを取得しようとしていますが、結果を得ることができません。これは私の学校の課題です。誰かが私にこの問題を解決してもらえますか？これは私のコードです： from bs4 import BeautifulSoup import re import requests for i in range (1,5): base_url = '

0熱

2答えて

BeautifulSoupは私にウェブサイトのコンテンツを表示できませんか？

BeautifulSoupというライブラリを使用して、ウェブサイトのコンテンツをスクレープしたいと考えています。コード： from bs4 import BeautifulSoup from urllib.request import urlopen html_http_response = urlopen("http://www.airlinequality.com/airport-rev

-4熱

1答えて

justdial.comからデータをスクラップする方法は？

上記のウェブサイトから電話番号と医師の名前をすべて取得したいと思います。私は現在、データのスクラップに関するいくつかの問題に直面しています。私は、エラーをこするが、私にエラーを表示するためのHTMLページをダウンロードした Warning: file_get_contents(file:///C:/Program%20Files%20(x86)/xampp/htdocs/scrap_demo/To

0熱

1答えて

一度ページ数を削り取った後に改ページする方法は？（Scrapy）

ハイパーリンクのページ区切りボタンがないレビューサイトにページを分けようとしています。私は、各リンクのページ数をページ付けし、ハードコーディングするロジックを書いています。しかし、私はそれがstart_requestsの特定のリンクのページ数として掻き集めた情報を使用することが可能かどうかと思っています。ここスパイダーコード（2つのリンクを経由ページ付けする）： class TareviewsS