crawler4j

6熱

1答えて

私は、crawler4jで基本クローラーの例を使用しようとしています。私はcrawler4jのウェブサイトhereからコードを取った。 package edu.crawler; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.crawler4j.crawler.WebCrawler; import edu.uci.

3熱

1答えて

.jdb出力を参照しますか？

私はcrawler4jを実行しており、出力はディレクトリ/frontier/です。このディレクトリ内のファイルは 00000000.jdb je.info.0 je.info.lck je.lck .jdbファイルがあるだけです1つはデータを含み、他の3つのファイルは0バイトを有する。私はこのデータをどうすればいいのか分かりません。 Javaプログラムは私が望んでいたデータをキャプチャしますが、今

1熱

1答えて

ファイルへのパスにhdfs：// prefixを使用すると、ファイルを開くことができるのはなぜですか？

私はページをクロールするhadoopジョブを書いています。私が使用しているライブラリは、クロール中にファイルシステムを使用してクロールデータを保存します。私は使用しているクローラ・ライブラリがjava.ioを使用している間に、HDFSとのインタフェースには全く異なるクラスのセットを使用する必要があるため、ライブラリをHDFSを使用するように変更する必要があると確信していました。しかし、同僚がhd

2熱

2答えて

データを取得するためのクローラ4Jの効率的な設計

私はさまざまなWebサイトからデータを取得しようとしています。スタックオーバーフローでデータを取得すると、多くの人がこれを示唆しているようにcrawler4jを使用しています。以下は、私の理解/デザインです：今 1. Get sitemap.xml from robots.txt. 2. If sitemap.xml is not available in robots.txt, look fo

5熱

2答えて

ページからのすべてのリンクをより迅速にダウンロードするようにcrawler4jを取得するにはどうすればよいですか？

私は何をすることです： - ページをクロール - ページのすべてのリンクを取得し、リストでそれらを置くが - リストの各リンクを訪問新しいクローラを、開始 - 彼らにをダウンロード私はページにアクセスしたときに直接リンクをダウンロードできるより速い方法が必要ですか？どうも！

2熱

2答えて

スレッド "main"の例外java.lang.NoClassDefFoundError：Crawler4jを使用中のorg/apache/http/conn/scheme/SchemeSocketFactory

私はCrawler4jサンプルコードを使用していますが、例外があります。ここでは私の例外である：ここでは Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/conn/scheme/SchemeSocketFactory at LocalDataCollectorController.ma

0熱

1答えて

crawler4j

私はそれが加工ページとして出力返すCrawler4jを使用しています使用して別のWebページに存在される文字列を検索する方法：それは働いているここまで20077 ：見つかった10のリンク数：369 総テキストサイズをこのページの既存の文字列を検索したいのですがどうすればいいですか？