web-crawler

0熱

2答えて

これは、URLのローカルホストを呼び出すプログラム入力複数のURLです：8888/API/V1 /クローラーに1 +時間を取って、このプログラムokを実行するが、他のapiをブロックする。それはので、私はので、どのように私は @tornado.web.asynchronous @gen.coroutine @use_args(OrgTypeSchema) def

0熱

1答えて

Apache Nutch 2.3.1をサイドバーではなく記事コンテンツをクロールする方法を制限する方法

ニュースサイトをクロールする必要があります。私は、Hadoop 2.7.4とHbaseクラスタを使ってapache Nutch 2.3.1を設定しました。私はsolr 6.6.1経由で検索を提供する必要があります。いくつかのウェブサイトをクロールした後、私はNutchがページ内のすべてをクロールすることを観察しました。ニュースサイトでは、最新のニュースやトップニュースなどを含むサイドバーがあります

0熱

1答えて

jsonを取得するリクエストでpythonクロール

私がクロールを行うとき、私は通常、Pythonで解析する前にスクリプトを利用します。これにより、JSONを簡単に構造化して解析することができます。 >>> import requests >>> r = requests.get('~.json') >>> r.json() ただし、このページに遭遇し、https://www.eiganetflix.jp/%E3%82%BF%E3%82%A

0熱

1答えて

ループポストリクエストScrapy

私は、次のページに行くためにポストリクエストのループを送信する必要があるスクーピースパイダーをやっている、問題はそれは1つのポストリクエストを送信するだけです。クエリ文字列は各ページの要素「currentPage」を変更するので、各ページのこのキーの値を変更して投稿を送信する必要があります。しかし、私が前に言ったように、それは最初のポストリクエスト後に停止します。あなたがdont_filter=T

1熱

1答えて

Googleがインデックスを作成するのを防ぐ方法<script type = "application/json">コンテンツ

Googleのウェブマスターツールで、googleが<script type="application/json">タグのjsonに埋め込まれたリンクのようなクロールパスであることがわかりました。このjsonは後で解析され、クライアント側で使用されます。問題は、jsonに有効なリンクではないパスが含まれているため、Googleがそれらをリンクとして扱っているため、クロールして着実に増加する404

0熱

1答えて

StormcrawlerがElasticsearchでコンテンツを索引付けしていません。

Stormcrawlerを使用している場合、Elasticsearchに索引付けされますが、コンテンツは索引付けされません。 Stormcrawler、クローラ-conf.yamlが indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical" URLを持っている

0熱

1答えて

私の治療用CrawlSpiderで相対パスを絶対パスに変換するにはどうすればよいですか？

私はScrapyを初めて使いました。現在、Tor darknetのフォーラムをクロールするCrawlSpiderを作成しようとしています。現在、私のCrawlSpiderコードは次のとおりです。：フォーラムは、相対パスを使用しています import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextr

0熱

1答えて

Http Get Request - どのデータが実際に送信されますか？

私は現在、java apache commonsを使用してWebスパイダーを構築しています。：今重要な部分を私がhttps://google.com/search?q=word&hl=en などの基本的なGoogle検索のクエリは、どういうわけか私がブロックされます約60のクエリ後に、彼らがボットとして私を認めるようでクロールしていると私は503サービス使用不可の応答を取得します私がfiref

0熱

1答えて

カスタマイズCrawlera禁止ルールはScrapy

のために私は（旧）ワーキングウェブサイトのクローラーを更新中です。私がクロールしているウェブサイトにはより厳しい禁止規則が導入されているようですので、この問題を回避する試みとしてクローラを使用し始めました。私は現在抱えている問題は、対象のウェブサイトは、標準のHTMLページに302を行うための非標準的な禁止アプローチを使用していることです。クローラーはこれを禁止として検出せず、すぐにクロールを停

1熱

1答えて

scrapy spider：時系列での出力

私はPythonでScrapyを使ってWebクローラをプログラミングしています。目的は、所定の時間間隔でウェブページの変化を監視することである。ウェブサイトにログインすると、スパイダーはX分ごとにWebページを要求し、特定のデータがページから抽出され、テキストファイルに保存されます。テキストファイルは、スパイダーが閉じたときにのみ書き込まれ、テキストファイルの行は時間順に並んでいないことが判明