私は、学術雑誌を記述するために使用されるすべてのHTMLメタタグをカタログ化するためのリサーチプロジェクトを完了しています。edu.uci.ics.crawler4j.crawler.WebCrawlerを使用してすべてのHTMLメタタグを検出する方法
私はedu.uci.ics.crawler4j.crawler.WebCrawler
を使用しており、少数のシードURLに対して作業しています。
私の問題は、シードURLのより大きなリストが必要です。
どのようなオプションがありますか?
ジャーナルウェブサイトを探してウェブを手動で検索する必要がありますか?crawler4j
と類似のものを使用してシードサイトを見つけることはできますか?