web-crawler

    0

    1答えて

    クローラを作成し、以下のように出力します。 国/地域 (名前タグ)詳細 住所 電話 私はそれぞれの別れのための区切り文字タブで提示するように、1つのラインでアルとしてこの出力を作りたいですtd。期待される出力は以下の通りです: 国/地域(名前タグ)        詳細住所電話 私はこのケースを処理する方法がわかりません。そこで、私はターゲットHTMLコードと私のクローラコードを回答の参照として掲示

    0

    2答えて

    JSOUPを使用してWebクローラを構築しようとしています。問題は、他のページでも機能しますが、Swiggyデータをクロールできないことです。これはカスタムタグrestaurant-menuの存在によるものだと思います。私はこれを実行します。 Document document = Jsoup.connect(url).get(); Elements document_body = docume

    -1

    1答えて

    Webサイトから写真をクロールするためのおもちゃプログラムを作成していますが、URLはjsで生成されます。誰がどのようにそれに対処するために私を伝えることができます。.. 解析されたURL: と、元のWebページ:とにかく http://jandan.net/ooxx/page-323#comments 、URI SRC画像を符号化して暗号化されて

    0

    2答えて

    Nutchは自分のルールに従って特定のURLを選択します。このステップは、生成時に実行されます。私はパーサ/インデクサプラグインを書く方法を知っています。しかし、生成時にそれを行う方法。私のNutchのバージョンは2.3シリーズです

    0

    1答えて

    APIを使用せずに会社のLinkedInプロファイルをクロールしたいとします。私は、次のコードを使用するときにクロール中にページリダイレクトを取得しています。 http://localnew/comapnyはhttp://linkedin/companyにリダイレクトされます。それを防ぐ方法。 <?php error_reporting(E_ALL); ini_set("display_err

    0

    1答えて

    私はページのリストをクロールしています。各ページには、解析する必要があるURLのリストがあります。私はこれらの最初のページをループしていますが、いつクロールをやめなければならないのかは分かりません。ない http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstContent=183 ではなく、この1すでに空

    0

    1答えて

    スケジュールされた時間にスパイダーを複数回クロールしたい。次のクロール時間は、最初のクロールが完了した後に決定されます。ここではそれを行うに私のコードですが、コードは最初crawler.start()ラインでブロックされます。 spidersQ = collections.OrderedDict() class QuotesSpider(scrapy.Spider): name =

    0

    1答えて

    私はPythonが初めてです。私がやっていることは、Webhose.io APIを使ってWebデータをJson形式にクロールすることです。それぞれのクエリは私に5つの投稿/記事を与えます。私は1000セットの記事を取得しようとしています。 Webhoseは登録が無料で、無料で月に1,000リクエストを提供するので、データセットを取得するのに十分です。 私は現在、このようlookeているコード: i

    1

    1答えて

    私はJsoup解析を初めて利用しています。 これを行う方法は、実際にはdivタグでページを検査することです私が必要とするものに関連しています。まず、私もでも私ならば、第二 (企業のリストを与えることになっているもの)、私のコンソルHTML出力にこれらのDIVタグを見つけることができません Document doc = Jsoup.connect("https://angel.co/companie

    0

    1答えて

    私はNaver Crawler(韓国のGoogle:P)で作業しています。私は今このコードを1週間作業しており、解決するための最後の課題が1つあります。したがって、下のコードでは、Naver APIを使用したデータクロールと各ループの「js」へのデータ受信を示しています。私がする必要があるのは、各データフレーム(dfdfdf)を結合し、一番下のものを結合することだけです。しかし、私の結果は常に最後