私はさまざまなWebサイトからデータを取得しようとしています。スタックオーバーフローでデータを取得すると、多くの人がこれを示唆しているようにcrawler4jを使用しています。以下は、私の理解/デザインです:今 1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in robots.txt, look fo
私はCrawler4jサンプルコードを使用していますが、例外があります。ここで は私の例外である:ここでは Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/conn/scheme/SchemeSocketFactory
at LocalDataCollectorController.ma