crawler4j

    6

    1答えて

    私は、crawler4jで基本クローラーの例を使用しようとしています。私はcrawler4jのウェブサイトhereからコードを取った。 package edu.crawler; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.crawler4j.crawler.WebCrawler; import edu.uci.

    3

    1答えて

    私はcrawler4jを実行しており、出力はディレクトリ/frontier/です。このディレクトリ内のファイルは 00000000.jdb je.info.0 je.info.lck je.lck .jdbファイルがあるだけです1つはデータを含み、他の3つのファイルは0バイトを有する。私はこのデータをどうすればいいのか分かりません。 Javaプログラムは私が望んでいたデータをキャプチャしますが、今

    1

    1答えて

    私はページをクロールするhadoopジョブを書いています。私が使用しているライブラリは、クロール中にファイルシステムを使用してクロールデータを保存します。私は使用しているクローラ・ライブラリがjava.ioを使用している間に、HDFSとのインタフェースには全く異なるクラスのセットを使用する必要があるため、ライブラリをHDFSを使用するように変更する必要があると確信していました。 しかし、同僚がhd

    2

    2答えて

    私はさまざまなWebサイトからデータを取得しようとしています。スタックオーバーフローでデータを取得すると、多くの人がこれを示唆しているようにcrawler4jを使用しています。以下は、私の理解/デザインです:今 1. Get sitemap.xml from robots.txt. 2. If sitemap.xml is not available in robots.txt, look fo

    5

    2答えて

    私は何をすることです: - ページ をクロール - ページのすべてのリンクを取得し、リストでそれらを置く が - リストの各リンクを訪問新しいクローラを、開始 - 彼らに をダウンロード 私はページにアクセスしたときに直接リンクをダウンロードできるより速い方法が必要ですか?どうも!

    2

    2答えて

    私はCrawler4jサンプルコードを使用していますが、例外があります。ここで は私の例外である:ここでは Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/conn/scheme/SchemeSocketFactory at LocalDataCollectorController.ma

    0

    1答えて

    私はそれが加工ページとして出力返すCrawler4jを使用しています使用して別のWebページに存在される文字列を検索する方法:それは働いているここまで20077 :見つかった10の リンク数:369 総テキストサイズをこのページの既存の文字列を検索したいのですがどうすればいいですか?