2017-05-06 3 views
0

私は、学術雑誌を記述するために使用されるすべてのHTMLメタタグをカタログ化するためのリサーチプロジェクトを完了しています。edu.uci.ics.crawler4j.crawler.WebCrawlerを使用してすべてのHTMLメタタグを検出する方法

私はedu.uci.ics.crawler4j.crawler.WebCrawlerを使用しており、少数のシードURLに対して作業しています。

私の問題は、シードURLのより大きなリストが必要です。

どのようなオプションがありますか?

ジャーナルウェブサイトを探してウェブを手動で検索する必要がありますか?crawler4jと類似のものを使用してシードサイトを見つけることはできますか?

答えて

3

Web-Crawlingのフィールドでは、特にのフィールド固有のタスク(学術雑誌のみを表示するなど)の分野で一般的な問題が発生します。

  • は、よく知られている雑誌のための事前分類シード点を収穫するために(例えばDMOZ、...)、またはジャーナル・リスト(例えばReuters List)オープンウェブディレクトリを使用します。一般的には、いくつかのオプションがあります。

  • 理論上、大きな検索エンジンはWWWのかなりの部分を収穫しました。 半自動化を実行して、事前定義されたクエリを検索し、ヒットを処理しようとすることができます。

    • 使用crawler4jあなたが好きなフィールドにReutersからジャーナル名を収集するために:しかし、このオプションは次のようになりウェブクロールでいくつかのより複雑な技術(例えばfocused crawling

    につながる可能性があります調べる。

  • この目的のために、Journalリストを見る必要があります。 business journal list。ジャーナル名は常にh4タグ内にあり、簡単に抽出できます。
  • 名前を抽出したら、対応するURLを調べるだけで済みます。この目的のために、上記の検索エンジンアプローチを使用することができます。高い確率で、最初のヒットはジャーナルのウェブページでなければなりません。
関連する問題