2016-09-11 2 views
0

私はcontroller.javaCrawler4jでデフォルトのcrawlStorageFolderを変更するにはどうすればよいですか?

にCrawler4j exampleのクイックスタート、

をしようとすると、私はこれは私が結果保存場所を変更する必要があります場所ですね。

`public class Controller { 
    public static void main(String[] args) throws Exception { 
     String crawlStorageFolder = "/data/crawl/root"; 
     int numberOfCrawlers = 7; 

     CrawlConfig config = new CrawlConfig(); 
     config.setCrawlStorageFolder(crawlStorageFolder);` 

まず、ファイル辞書が"/data/crawl/root"であるかどうかわかりません。

その後、私はcrawler4jは、外部の発見で作業することができ、私の理解では

... .ITはje.lck、je.info.0のようないくつかの未知のファイルとフロンティアというフォルダを作成します"C:\Fraps\try"に変更しようリンケージとコンテンツの解析。

ファイルには、このWebコンテンツが含まれていることは、このcrawlStorageFolderに記載する必要がありますか?

つまり、crawler4jからhtmlファイル(テキスト内部)をダウンロードできますか?またはcrawler4jから何をダウンロードすればよいですか?

答えて

2

crawlStorageFolderは、中間クロールデータが格納されるフォルダです。 ではなく、で、解析されてダウンロードされたHTMLコンテンツを保存するフォルダです。

構成の説明については、thisを確認してください。

フェッチされたデータをダウンロードして保存する場合は、カスタムクローラの実装でこの動作を実装する必要があります。この動作はWebCrawlerに拡張されます。

GitHubの例を確認してください。

関連する問題