crawler4j

    0

    1答えて

    crawler4jで次のコードが構築され、指定されたシードURLのみがクロールされ、他のリンクをクロールしないのはなぜですか? public static void main(String[] args) { String crawlStorageFolder = "F:\\crawl"; int numberOfCrawlers = 7; CrawlCon

    0

    1答えて

    私はcontroller.java にCrawler4j exampleのクイックスタート、 をしようとすると、私はこれは私が結果保存場所を変更する必要があります場所ですね。 `public class Controller { public static void main(String[] args) throws Exception { String crawlStor

    0

    1答えて

    クロールを再開可能に設定できることは既に知っています。 ただし、再開可能な機能を使用してクロールプロセスを一時停止し、その後プログラムでクロールを再開することは可能ですか?例えば。私は正常にshutdownクローラのシャットダウン方法でクロールし、再開可能なパラメータをtrueに設定して、再びクロールを開始できます。 再開可能パラメータの主な目的は、クローラの偶発的なクラッシュを処理するためです。

    0

    1答えて

    sbtコンソールでのCrawler4jの使用が機能します。 java -jar crawler.jar を始めたときfatjarティカを作成するために、SBT-アセンブリを使用して(?)、もはやページのエンコーディングを検出することができるように思われなかった場合ティカは、エンコーディングを検出するためには何が欠けていますか? ERROR edu.uci.ics.crawler4j.parse

    1

    1答えて

    ウェブページのコンテンツをクロールしたい - http://www.pgmfi.org/しかし、ページにアクセスすると、ページにリダイレクトされます。http://twiki.pgmfi.org/bin/view jsoupまたはcrawler4jを使用してURL(http://www.pgmfi.org/)のコンテンツをクロールしようとしましたが、次のコンテンツがあります。 Looking fo

    1

    1答えて

    Crawler4JのFormAuthInfo認証をクローラから特定のLinkedInページに使用しようとしています。このページは、正しくログされている場合にのみレンダリングできます。 これは、アクセスURLと私のコントローラである:私は使用してこのアプリを実行すると public class Crawler extends WebCrawler { private final static Pa

    0

    1答えて

    私は最初のWebクローラーで作業しており、結果を印刷する方法を理解できません。エラーはありませんが、何も表示されません。 BS4インポートBeautifulSoup 輸入urllib3から デフextract_links(): http = urllib3.PoolManager() r = http.request('GET', 'http://www.drankbank.com/happy-

    0

    1答えて

    私はCrawler4Jを使用してクロールしています。 ログメッセージを印刷したくありません。 しかし、Crawler4Jにはロガーがあります。 ロガー内部のCrawler4Jライブラリを無効にするにはどうすればよいですか?

    0

    1答えて

    私は、学術雑誌を記述するために使用されるすべてのHTMLメタタグをカタログ化するためのリサーチプロジェクトを完了しています。 私はedu.uci.ics.crawler4j.crawler.WebCrawlerを使用しており、少数のシードURLに対して作業しています。 私の問題は、シードURLのより大きなリストが必要です。 どのようなオプションがありますか? ジャーナルウェブサイトを探してウェブを

    7

    1答えて

    私はページの内容を取得し、その特定の部分を抽出したいと考えています。私が知る限り、そのようなタスクのための少なくとも2つのソリューションがあります:Crawler4jとJsoup。 両者は、ページのコンテンツを取得し、そのページの下位部分を抽出することができます。私はそれらの違いは何か分かりません。回答としてマークされsimilar questionは、あります: Crawler4jはJsoupが