2011-07-25 7 views
-1

クローラに関するいくつかの質問があります。c#web-based crawler

  1. 純粋にウェブ上で動作するクローラを作成できますか?つまり、Webプロジェクトの管理ページから起動または停止できるクローラです。

  2. クローラを書くのに最も便利な言語は何ですか?私はC#でそれを書くつもりだった。

  3. 最も重要なもの:クローラはどのように機能しますか?つまり、HttpWebRequestHttpWebResponseを使用して作成することがわかります。それぞれのページを訪問した後にクローラが戻ってきてコードが結果を評価し、クローラを他のWebサイトに送信するキューを作成すると思います。したがって、基本的にこの情報が真であれば、Webプロジェクトを使用してクローラを作成することを考慮して、ページを常に上に維持し、サーバーのクローラの負担はどれくらい大きくなるでしょうか?それはサーバーを遅くするか、それとも比較的小さな仕事ですか?私が知っている

、多くの質問がここにありますし、私は本当に答えを感謝します:)

+0

なぜあなたはマイナスポイントを与えていますか? – Shaokan

+2

あなたはどこから始めるべきかわからない場合は(特に言語を選んでください!)、そのような大きくて非常に複雑なプロジェクトを考え直したいと思うかもしれません。 – TheCloudlessSky

+0

私は自分でそれをやっています。私は趣味のみをコードします。 – Shaokan

答えて

1

1)絶対にクローラがウェブ上でpurleyを仕事ができます。クローラはASP.NETアプリケーションでも、管理ページでサーバー上のタスク(Webクローラ)を起動または停止することもできます。

2)VB.NETまたはC#が動作します。彼らはどちらもウェブを扱うための広範なライブラリを持っています。

3)あなたが探しているのは再帰関数だと思います。まず、インターネット上で始まるページを選択します(多くのリンクが含まれています)。ページ内の各リンクについて、クローラーのmainメソッドを再度実行します。これを何度も繰り返します。おそらく、クロールまでの「深い」方法を制限したいと思うでしょう。私はあなたも各ページ内でいくつかの仕事をしたいと思います。

+0

私は同じページで他の作業をしませんが、ウェブサイトをサーフィンしているユーザーがいるので、サイトがゆっくりと動作することは望ましくありません:) – Shaokan

+0

サーバーのドメイン名を調べることを検討することがあります。あなたはx量の呼び出しを行う場合、それらをキューに追加し、後でそれを保存します。 – user842818

+0

ありがとうございました:) – Shaokan

関連する問題