2011-02-09 9 views

答えて

2

基本的にサイトをクロールする必要があります。ステップ

を繰り返し、ルートドメイン/ホームページで

  • スタートこれらのリンクのそれぞれについて、同じドメイン
  • 内指すすべてのリンクの
  • ルック:あなたのプロセスは次のようなものになるだろう同じドメインを指しているクロールリンクがもうない場合、ループは終了します。サイトに滞在することを忘れないと、外部サイトのクロールを開始します。

    サイトマップが提供されている場合は、サイトマップを解析することもできます。

    Javaを使用する場合に便利なツールの1つは、PHPでJSpiderまたはSphiderです。

+0

私が同じドメインにいるかどうかを確認するにはどうすればよいですか? RegEx? –

+0

リンク先のURLのホストを見ることができます。 URLパーサはPHPでこの情報を簡単に取得できます。 –

0

各ページのマークアップを再帰的にスキャンする必要があります。トップレベルのページから、他のページへのリンクを探して再帰的にクロールします。無限ループに巻き込まれないようスキャンされたものを追跡する必要もあります。

3

site演算子を使用してGoogleのインデックスにクエリを実行できます。例:

これは、Googleによって現在インデックスされているページのリストを返します。他の検索エンジンでも同様の機能が提供されていますが、私は構文を理解していません。

もちろん、すべてのページがインデックスに登録されているわけではなく、インデックスには存在しなくなったページが含まれている場合があります。

+0

私はGoogleにすべての苦労をさせるという考えが好きです... –

関連する問題