crawler4j

0熱

1答えて

crawler4jで次のコードが構築され、指定されたシードURLのみがクロールされ、他のリンクをクロールしないのはなぜですか？ public static void main(String[] args) { String crawlStorageFolder = "F:\\crawl"; int numberOfCrawlers = 7; CrawlCon

0熱

1答えて

Crawler4jでデフォルトのcrawlStorageFolderを変更するにはどうすればよいですか？

私はcontroller.java にCrawler4j exampleのクイックスタート、をしようとすると、私はこれは私が結果保存場所を変更する必要があります場所ですね。 `public class Controller { public static void main(String[] args) throws Exception { String crawlStor

0熱

1答えて

Javaクローラのcrawler4jを使用してクロールを一時停止および再開することはできますか？

クロールを再開可能に設定できることは既に知っています。ただし、再開可能な機能を使用してクロールプロセスを一時停止し、その後プログラムでクロールを再開することは可能ですか？例えば。私は正常にshutdownクローラのシャットダウン方法でクロールし、再開可能なパラメータをtrueに設定して、再びクロールを開始できます。再開可能パラメータの主な目的は、クローラの偶発的なクラッシュを処理するためです。

0熱

1答えて

Crawler4Jは、TikaでのFatJarでのsbtアセンブリのエンコーディングを検出しません。

sbtコンソールでのCrawler4jの使用が機能します。 java -jar crawler.jar を始めたときfatjarティカを作成するために、SBT-アセンブリを使用して（？）、もはやページのエンコーディングを検出することができるように思われなかった場合ティカは、エンコーディングを検出するためには何が欠けていますか？ ERROR edu.uci.ics.crawler4j.parse

1熱

1答えて

他のウェブページにリダイレクトされるウェブページのコンテンツを取得する

ウェブページのコンテンツをクロールしたい - http://www.pgmfi.org/しかし、ページにアクセスすると、ページにリダイレクトされます。http://twiki.pgmfi.org/bin/view jsoupまたはcrawler4jを使用してURL（http://www.pgmfi.org/）のコンテンツをクロールしようとしましたが、次のコンテンツがあります。 Looking fo

1熱

1答えて

Crawler4j認証が機能しない

Crawler4JのFormAuthInfo認証をクローラから特定のLinkedInページに使用しようとしています。このページは、正しくログされている場合にのみレンダリングできます。これは、アクセスURLと私のコントローラである：私は使用してこのアプリを実行すると public class Crawler extends WebCrawler { private final static Pa

0熱

1答えて

Webクローラーが印刷されない

私は最初のWebクローラーで作業しており、結果を印刷する方法を理解できません。エラーはありませんが、何も表示されません。 BS4インポートBeautifulSoup 輸入urllib3からデフextract_links（）： http = urllib3.PoolManager() r = http.request('GET', 'http://www.drankbank.com/happy-

0熱

1答えて

Crawler4Jロガーを無効にするにはどうすればよいですか？

私はCrawler4Jを使用してクロールしています。ログメッセージを印刷したくありません。しかし、Crawler4Jにはロガーがあります。ロガー内部のCrawler4Jライブラリを無効にするにはどうすればよいですか？

0熱

1答えて

edu.uci.ics.crawler4j.crawler.WebCrawlerを使用してすべてのHTMLメタタグを検出する方法

私は、学術雑誌を記述するために使用されるすべてのHTMLメタタグをカタログ化するためのリサーチプロジェクトを完了しています。私はedu.uci.ics.crawler4j.crawler.WebCrawlerを使用しており、少数のシードURLに対して作業しています。私の問題は、シードURLのより大きなリストが必要です。どのようなオプションがありますか？ジャーナルウェブサイトを探してウェブを

7熱

1答えて

Crawler4jとJsoupのクロールとJavaでの解析について

私はページの内容を取得し、その特定の部分を抽出したいと考えています。私が知る限り、そのようなタスクのための少なくとも2つのソリューションがあります：Crawler4jとJsoup。両者は、ページのコンテンツを取得し、そのページの下位部分を抽出することができます。私はそれらの違いは何か分かりません。回答としてマークされsimilar questionは、あります： Crawler4jはJsoupが