2011-01-10 7 views
0

C++、JAVA、PHPで書かれた良いオープンソースのWebクローラを教えてください。インデックス作成に適したオープンソースのWebクローラー特定のコンテンツの特定のWebサイト?

特定のコンテンツ(画像、テキスト、動画)については、特定のウェブサイトをクロール/インデックスするだけです。

私は質問の多くは、このトピックに関する&回答がこのウェブサイト

にすでにあることを知っているが、私はそれらのすべてを読んだ後、少し混乱しています。

私は再び同じ質問を繰り返すと申し訳ありません。

-事前におねがいします。

+0

特定のWebサイトの特定のWebクローラを要求していますが、Webサイトの内容や何を "掻きたい"ものかについてのヒントは与えていません。私たちは本当にあなたを助けることはできません... – Savetheinternet

+0

それは、私はPHPまたはC + +のcURLを調べることをお勧めします。 – Savetheinternet

+0

[GNU wget](http://www.gnu.org/software/wget/) – ajreal

答えて

0

ウェブサイトの種類によって異なります。あなたが望むものを表示/ダウンロードできるようにする前にログインする必要がある場合は、cURL(好ましくはPHP)を使用することをお勧めします。そうでなければ、wget、sh、またはfile_get_contentsという単純なものをPHPで使用することができます。

擦っているサイトによっては、特定のコンテンツを見つけるために何らかのHTMLパーサーや正規表現を使用する必要があります。

+0

thnksあなたは大変です – Peeyush

+0

たとえば、私はwww.techcrunch.comの内容を索引に入れたいと思います。ここでの内容はテキスト、写真、ビデオを意味します。 – Peeyush

関連する問題