web-crawler

    0

    1答えて

    機能していないCSV_DELIMITERパラメータ: scrapy runspider beneficiari_2016.py -o beneficiari_2016.csv -t csv -a CSV_DELIMITER="\n" 輸出は完璧に動作しますが、区切り文字は、まだデフォルトのカンマです( "、")。 どのように修正できるか分かりましたら教えてください。ありがとうございました! コード

    0

    1答えて

    大規模なWebサイトでWebクローラーを作成しています。しかし、接続が不安定で接続がクローズしたり、SSLエラーが発生したり、断続的に障害が発生したりします。私はこの問題に対処する方法を探しています。これは、以下の私のコードで、誰がどのように待機を実装したり、ネットワークインタフェース自体を聞くしようとせずに、ネットワーク接続 try: requests.get("http://exam

    0

    1答えて

    私は様々な家具のためにウェブをクロールし、その属性を取得するプロジェクトに参加しています。私はDjangoItemを使ってこれらのデータを私のDBに保存しました。私の問題は、forループで使用する応答カウントを取得しています。私はそれが(おそらくない)それを行うための最善の方法かどうかわからない。ここに私のスパイダーがあります: def parse(self, response): no

    0

    1答えて

    私が訪問したページからHTMLを保存し、S3にアップロードしているスクリーピーWebクローラを作成しています。彼らはS3にアップロードされているので、私は私のpythonのドキュメントを読み込む スパイダークラス class MySpider(CrawlSpider): name = 'my name' start_urls = ['my url'] allowed_

    1

    1答えて

    私はウェブサイトからテーブルを引き出し、Excelスプレッドシートに貼り付けるウェブスクレーパーを作ろうとしています。私はPython初心者です(そして一般的にはコーディング) - 文字通り数日前に学習を始めました。 このWebスクレーパー/クローラーを作成するにはどうすればよいですか?私が持っているコードは次のとおりです。 import csv import requests from Be

    0

    2答えて

    私はPythonを使ってシンプルなWebクローラーを作っています。私は、ファイルパスのための様々なフォーマットを試してみました from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Fire

    0

    1答えて

    私はクーポンのウェブサイトクーポンをクロールしようとしていますが、私は クローラの表示エラーを実行しようとしています。おかげさまで import scrapy from scrapy.http import Request from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider c

    1

    1答えて

    サイトをクロールしています。 リンクが正しくありません。 ページが開かない。 だから私は、元のデータ それとも私が思うよりも良い方法があるにリンクを追加したいです。 -Ex- [[間違ったアドレス]] /qna/detail.nhn?d1id=7 & dirId = 70111良い方法があれば私に知らせてください& DOCID = 280474152 [[あなたは]を追加したいテキスト] は、私は

    -3

    2答えて

    https://plus.google.com/s/casasgrandes27%40gmail.com/top をクロールした後、私は、Pythonで、次のページをクロールする必要がありますが、私はそのHTMLではないリンクの一般的なソースコードが必要です。例えば オープンリンク:ログインなしplus.google.com/s/casasgrandes27%40gmail.com/top最後から

    0

    2答えて

    ウェブサイトからデータをクロールする必要があります。が実際 try($base = Goutte::request('GET', $url)->filter('#table')->text())で private function fetchArchive($id) { $url = 'xxxx/' . $id; $attempt = 0; $base = n