web-crawler

0熱

1答えて

Scrapy CLI出力私はこのようなCLI経由でカスタム区切り文字とscrapy輸出を実行しようとしています

機能していないCSV_DELIMITERパラメータ： scrapy runspider beneficiari_2016.py -o beneficiari_2016.csv -t csv -a CSV_DELIMITER="\n" 輸出は完璧に動作しますが、区切り文字は、まだデフォルトのカンマです（ "、"）。どのように修正できるか分かりましたら教えてください。ありがとうございました！コード

0熱

1答えて

ネットワークエラーを処理するPython、Web Crawler

大規模なWebサイトでWebクローラーを作成しています。しかし、接続が不安定で接続がクローズしたり、SSLエラーが発生したり、断続的に障害が発生したりします。私はこの問題に対処する方法を探しています。これは、以下の私のコードで、誰がどのように待機を実装したり、ネットワークインタフェース自体を聞くしようとせずに、ネットワーク接続 try: requests.get("http://exam

0熱

1答えて

DB（Django、Scrapy）にアイテムを保存するためのループ応答

私は様々な家具のためにウェブをクロールし、その属性を取得するプロジェクトに参加しています。私はDjangoItemを使ってこれらのデータを私のDBに保存しました。私の問題は、forループで使用する応答カウントを取得しています。私はそれが（おそらくない）それを行うための最善の方法かどうかわからない。ここに私のスパイダーがあります： def parse(self, response): no

0熱

1答えて

Scrapyは一時ファイルとしてHTMLを保存します

私が訪問したページからHTMLを保存し、S3にアップロードしているスクリーピーWebクローラを作成しています。彼らはS3にアップロードされているので、私は私のpythonのドキュメントを読み込むスパイダークラス class MySpider(CrawlSpider): name = 'my name' start_urls = ['my url'] allowed_

1熱

1答えて

Python Web Scraper/Crawler - HTMLテーブルからExcelスプレッドシートへ

私はウェブサイトからテーブルを引き出し、Excelスプレッドシートに貼り付けるウェブスクレーパーを作ろうとしています。私はPython初心者です（そして一般的にはコーディング） - 文字通り数日前に学習を始めました。このWebスクレーパー/クローラーを作成するにはどうすればよいですか？私が持っているコードは次のとおりです。 import csv import requests from Be

0熱

2答えて

Windows 10でPythonでSelenium Webdriverのパスアドレスを書き込む方法は？

私はPythonを使ってシンプルなWebクローラーを作っています。私は、ファイルパスのための様々なフォーマットを試してみました from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Fire

0熱

1答えて

クロール中に治療クローラにエラーが表示される

私はクーポンのウェブサイトクーポンをクロールしようとしていますが、私はクローラの表示エラーを実行しようとしています。おかげさまで import scrapy from scrapy.http import Request from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider c

1熱

1答えて

元のデータにテキスト（リンク）を追加する方法はありますか？

サイトをクロールしています。リンクが正しくありません。ページが開かない。だから私は、元のデータそれとも私が思うよりも良い方法があるにリンクを追加したいです。 -Ex- [[間違ったアドレス]] /qna/detail.nhn?d1id=7 & dirId = 70111良い方法があれば私に知らせてください& DOCID = 280474152 [[あなたは]を追加したいテキスト] は、私は

-3熱

2答えて

のpython

https://plus.google.com/s/casasgrandes27%40gmail.com/top をクロールした後、私は、Pythonで、次のページをクロールする必要がありますが、私はそのHTMLではないリンクの一般的なソースコードが必要です。例えばオープンリンク：ログインなしplus.google.com/s/casasgrandes27%40gmail.com/top最後から

0熱

2答えて

PHP Goutte tryと再試行

ウェブサイトからデータをクロールする必要があります。が実際 try($base = Goutte::request('GET', $url)->filter('#table')->text())で private function fetchArchive($id) { $url = 'xxxx/' . $id; $attempt = 0; $base = n