web-scraping

    1

    2答えて

    私はPythonリクエストモジュールを使用して電子商取引のWebサイトを削っています。 私は、複数のノード間でテキストを抽出する際にいくつかの問題があります。次のhtmlは、私がテキストを抽出しようとしている部分です。私は2つの(p)タグとすべての(強い)タグに埋め込まれたdivクラス= "rte ingredients"の下のすべてのテキストを抽出する必要があります。注意を払う! (強い)タグは

    0

    1答えて

    - 私Jsoupを使用して、このアマゾンのページで本の著者を抽出しようとしている:Link 私はtittlesこすりすることができました: public static final String URL_LITERATURE_FICTION="https://www.amazon.com/b/ref=s9_acss_bw_en_BGG15eve_d_1_6_w?_encoding=UTF8&node

    0

    1答えて

    私はさまざまなウェブサイトから記事を収集するためにPython Webscraperを実行し、次にCSVファイルとして保存します。私はこれらを手動で実行していますが、最近Googleのクラウドシェルで実行しようとしています。私は依存関係にいくつかの問題があったので、私は私のpythonスクレーパーを実行するドッカー画像を構築することを決めた これまで、私はすべての必要な依存関係を持つコンテナを構築

    0

    1答えて

    検索エンジンから自分のローカルディレクトリにイメージを保存するはずのこのコードを以下に示します。ただし、それは16進ファイルとして保存されます。私はコードを混乱させて幸運になることができますが、ここの誰かが私に最善の解決策を与えることを願っています。 メモ帳++で16進ファイルを開くと、16進ファイルの最初の行に "‰PNG"と表示されます。私は手動でファイルの拡張子を変更し、正しい画像が表示され

    0

    1答えて

    私は複数のページを取得するWebスクレイピングプログラムを持っていますが、whileループを数値に設定する必要があります。最後のページに到達したらループを停止する条件を作りたい、または掻き取る項目がもうないことを認識したい。私はいくつのページが存在するか分からないと仮定します。どのように乱数を入れずにwhileループ条件を停止するように変更するのですか?私はreplace(","," ")を使用す

    -2

    1答えて

    このコードは、Google翻訳を掻き集めるためのものです。セレンを使用して、特定の単語の可能なすべての翻訳をスクラップします。ここで はコードです: from selenium import webdriver driver = webdriver.Chrome("E:\Tutorial\Driver\chromedriver.exe") words = ['girl', 'cat', '

    -1

    1答えて

    私はページをスクラップし、タグ内のhrefsデータを取得しようとしていますが、結果を得ることができません。これは私の学校の課題です。 誰かが私にこの問題を解決してもらえますか? これは私のコードです: from bs4 import BeautifulSoup import re import requests for i in range (1,5): base_url = '

    0

    2答えて

    BeautifulSoupというライブラリを使用して、ウェブサイトのコンテンツをスクレープしたいと考えています。 コード: from bs4 import BeautifulSoup from urllib.request import urlopen html_http_response = urlopen("http://www.airlinequality.com/airport-rev

    -4

    1答えて

    上記のウェブサイトから電話番号と医師の名前をすべて取得したいと思います。私は現在、データのスクラップに関するいくつかの問題に直面しています。私は、エラーをこするが、私にエラーを表示するためのHTMLページをダウンロードした Warning: file_get_contents(file:///C:/Program%20Files%20(x86)/xampp/htdocs/scrap_demo/To

    0

    1答えて

    ハイパーリンクのページ区切りボタンがないレビューサイトにページを分けようとしています。私は、各リンクのページ数をページ付けし、ハードコーディングするロジックを書いています。しかし、私はそれがstart_requestsの特定のリンクのページ数として掻き集めた情報を使用することが可能かどうかと思っています。ここ スパイダーコード(2つのリンクを経由ページ付けする): class TareviewsS