web-crawler

0熱

1答えて

私は最初のクローラーを作成しようとしていますが、私は必要なものを完成しました（1ºショップと2ºショップの情報と価格を入手する）ここに大きな栓があります。 there'are以上1店の出力結果は次のとおりです。 In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div

2熱

3答えて

治療は1つの深さだけ外部リンクに従います

私はfoo.comを這っていると想像してください。 foo.com自体にはいくつかの内部リンクを持っており、それはのようないくつかの外部リンクがあります：私は、そのような私がscrapyに行きたいなどの外部リンクのために、すべての内部リンクだけでなく、唯一の深さをクロールするscrapyを希望 foo.com/hello foo.com/contact bar.com holla.com

2熱

1答えて

Nutchの条件に基づいてフェッチした後にURLを拒否する

条件（たとえば、公開された日付や時刻など）に基づいて、取得されたURLをフィルタリングできるかどうかを知りたい。私は、取得するためにURLをregex-urlfilterでフィルタリングできることを知っています。私の場合、古い文書のインデックスを作成したくありません。したがって、2017年以前に文書が公開された場合、その文書は却下されなければなりません。任意の日付フィルタプラグインが必要か、既に

-1熱

1答えて

iPythonノートブックの出力全体を.txtファイルとして保存するにはどうしたらいいですか？

私はipythonノートブックのtwitterからデータをクロールするプログラムを書いています。プログラムは、出力として膨大なデータストリームを与え、この出力を.txtファイルに保存したい。どうすればいいのですか？私が端末を開いたら、私は簡単にこれを行うことができます： python myfile.py> file.txt ipythonノートブックで同じことをするにはどうすればいいですか？

0熱

1答えて

Rubyのクロールサイト、URLパラメータを追加

サイトをクロールしようとしています。は、各アドレスにURLパラメータを追加する前に付加しています。 require "spidr" Spidr.site('http://www.example.com/') do |spider| spider.every_url { |url| puts url } end しかし、私はそうのようなのparamをすべてのページ

0熱

1答えて

なぜGoogleのサポートサイトから、クローラ

検証するために必要とされる順DNSある - 呼び出し側としてのGooglebotを確認するにはを：使用して、あなたのログからアクセスするIPアドレスのDNSの逆引き参照を実行しますホストコマンドドメイン名が googlebot.comまたはgoogle.comのいずれかになっていることを確認します。ドメイン名でhostコマンドを使用して、手順1で取得したドメインの名前に対して前方DNS検索

0熱

1答えて

数字に限定することなく範囲を指定する方法

これはレストランのレビューを取得するコードです。私はレビューを収集しています。範囲が指定され、インポートされます。しかし問題がある。各店舗には異なる数のレビューがあります。少しのレビューでストアはすぐに次のストアに行く必要があります。私はあまりにも大きな範囲に苦しんでいます。しかし、それは範囲を減らすことはできません。これは、この範囲のレビューがあるショップがあるためです。どのように効果的に

1熱

1答えて

Pythonを使用してAjaxポップアップログインページを持つWebサイトにログインします。Requests.Sessionを使用して

www.mutualart.comからデータを収集しようとしていますが、このWebサイトにはAjaxログインフォームがあります。 'ログイン'をクリックするとポップアップ表示されます。したがって、このWebサイトにログインするためにRequests Sessionのpostメソッドを使用しようとしていたとき、それは機能しません。ウェブサイトからプレミアムデータを取得するには、ウェブサイトにログイ

0熱

1答えて

検索エンジンのデータベース設計？

私はウェブサイトをクロールするアプリを作成しました。 here - http://crawler.javaignite.com/ 私はすべての相対URLを得て、タイトルを含むmetaキーワードと説明を持っています。しかし、今ではこれらのデータをいくつかのテーブルに保存したいと思っています&検索エンジンストアのデータと検索の仕組みがわからないので、このための基本的なスキーマの作成に役立ちます。

1熱

1答えて

Javaを使用したApp Storeクローラ？

私は現在、ネットを研究しており、アプリストア用のJava Webクローラーを作成する方法を考え出しています。私はJsoupライブラリを試しましたが、無限のスクロールウェブページのクロールをサポートしていません。 javaを使用して無限ループのWebページをクロールする適切な方法が分かっている場合は、お気軽にアドバイスしてください。 Javaを使用し、セットアップPhantomJSへ更新どのよう