2017-05-26 8 views
0

私が興味を持っている特定のドメインサフィックスを持つ、できるだけ多くのドメイン名を見つけることに興味があります。たとえば、 ".com"、 ".net"、 ".org"特定のドメインサフィックスを持つサイトをクロールする

私はGoogleをクロールしようとしましたが、それはobviuosly法的ではない、やりにくいです。

ドメイン名のリストが多数ありますか?そうでない場合は、ドメインサフィックスで終わる可能性のあるドメイン名を検出するクローラを作成するにはどうすればよいですか?

答えて

1

CommonCrawlは、最近、[ホストのランク付けされたリスト] [2](合計385M)の出版を発表しました。これをドメインサフィックスでフィルタリングすることができます。

+0

ありがとうございます。サイトを自分でクロールするのではなく、他の人の努力を使う方がよい場合もあります。私はこれが私のケースを助けたので答えとしてマークします。 –

関連する問題