web-crawler

    0

    1答えて

    私は最初のクローラーを作成しようとしていますが、私は必要なものを完成しました(1ºショップと2ºショップの情報と価格を入手する)ここに大きな栓があります。 there'are以上1店の出力結果は次のとおりです。 In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div

    2

    3答えて

    私はfoo.comを這っていると想像してください。 foo.com自体にはいくつかの内部リンクを持っており、それはのようないくつかの外部リンクがあります:私は、そのような私がscrapyに行きたいなどの外部リンクのために、すべての内部リンクだけでなく、唯一の深さをクロールするscrapyを希望 foo.com/hello foo.com/contact bar.com holla.com

    2

    1答えて

    条件(たとえば、公開された日付や時刻など)に基づいて、取得されたURLをフィルタリングできるかどうかを知りたい。私は、取得するためにURLをregex-urlfilterでフィルタリングできることを知っています。 私の場合、古い文書のインデックスを作成したくありません。したがって、2017年以前に文書が公開された場合、その文書は却下されなければなりません。任意の日付フィルタプラグインが必要か、既に

    -1

    1答えて

    私はipythonノートブックのtwitterからデータをクロールするプログラムを書いています。プログラムは、出力として膨大なデータストリームを与え、この出力を.txtファイルに保存したい。どうすればいいのですか?私が端末を開いたら、私は簡単にこれを行うことができます: python myfile.py> file.txt ipythonノートブックで同じことをするにはどうすればいいですか?

    0

    1答えて

    サイトをクロールしようとしています。は、各アドレスにURLパラメータを追加する前に付加しています。 require "spidr" Spidr.site('http://www.example.com/') do |spider| spider.every_url { |url| puts url } end しかし、私はそうのようなのparamをすべてのページ

    0

    1答えて

    検証するために必要とされる順DNSある - 呼び出し側としてのGooglebotを確認するには を:使用して、あなたのログからアクセスするIPアドレスのDNSの逆引き参照を実行します ホストコマンドドメイン名が googlebot.comまたはgoogle.comのいずれかになっていることを確認します。 ドメイン名でhostコマンドを使用して、手順1で取得したドメイン の名前に対して前方DNS検索

    0

    1答えて

    これはレストランのレビューを取得するコードです。私はレビューを収集しています。 範囲が指定され、インポートされます。しかし問題がある。各店舗には異なる数のレビューがあります。少しのレビューでストアはすぐに次のストアに行く必要があります。 私はあまりにも大きな範囲に苦しんでいます。しかし、それは範囲を減らすことはできません。これは、この範囲のレビューがあるショップがあるためです。 どのように効果的に

    1

    1答えて

    www.mutualart.comからデータを収集しようとしていますが、このWebサイトにはAjaxログインフォームがあります。 'ログイン'をクリックするとポップアップ表示されます。したがって、このWebサイトにログインするためにRequests Sessionのpostメソッドを使用しようとしていたとき、それは機能しません。 ウェブサイトからプレミアムデータを取得するには、ウェブサイトにログイ

    0

    1答えて

    私はウェブサイトをクロールするアプリを作成しました。 here - http://crawler.javaignite.com/ 私はすべての相対URLを得て、タイトルを含むmetaキーワードと説明を持っています。 しかし、今ではこれらのデータをいくつかのテーブルに保存したいと思っています&検索エンジンストアのデータと検索の仕組みがわからないので、このための基本的なスキーマの作成に役立ちます。

    1

    1答えて

    私は現在、ネットを研究しており、アプリストア用のJava Webクローラーを作成する方法を考え出しています。私はJsoupライブラリを試しましたが、無限のスクロールウェブページのクロールをサポートしていません。 javaを使用して無限ループのWebページをクロールする適切な方法が分かっている場合は、お気軽にアドバイスしてください。 Javaを使用し、セットアップPhantomJSへ 更新 どのよう