2011-05-19 6 views
2

私は新しい趣味のプログラミングプロジェクトを探していました。プログラムでWebサイトから情報を収集し、そのデータを分析して集計やフィルタリングなどの作業を行う方法は面白いと思います。たとえば、Craiglistのリストを取得し、地理的な領域だけでなく特定の都市に一致するものを表示するようなアプリケーションを作成したい場合は、これは単なる例ですが、Googleがサイトのコンテンツを分析してランク付けの仕方を知るように高度で洗練された方法で進むことができます。Webサイトのコンテンツをプログラムで分析するにはどうすればよいですか?

私はその主題について次は何も知らず、そのことについてもっと学ぶことが楽しいと思うし、その話題では非常に控えめなプログラミングプロジェクトをやってみたいと思う。私の問題は、私が知っていることはほとんど分かっていないことです。

これらの種類のプログラムは何と呼ばれていますか? Googleで検索する際に便利なキーワードは何ですか?入門用の読書資料はどこで入手できますか?面白い論文がありますか?

私は私の無知を私を乱用する誰かが必要なので、私は自分でいくつかの研究をすることができます。

答えて

1

cURL(http://en.wikipedia.org/wiki/CURL)は、ウェブサイトのコンテンツを取得してプロセッサに渡すための優れたツールです。

特定の言語に習熟している場合は、cURLをサポートしているかどうかを確認してください。そうでない場合は、PHP(php.net)を起動するのがよいかもしれません。

cURLを使用してウェブサイトのコンテンツを取得した場合、その言語のテキスト処理機能を使用してデータを解析できます。正規表現(http://www.regular-expressions.info/)やPHPのstrstr()などの関数を使用して、検索する特定のデータを検索して抽出することができます。

+0

これは始めるのに最適な場所です。ありがとう。 – wolmz

1

他のサイトを「スキャンする」プログラムは、通常web crawlersまたはスパイダーと呼ばれます。

+0

これはまさに私が探していたものです!適切なキーワードを知らなくても情報を検索しようとすると非常に困難になることがあります。これは多くの助けになります。ありがとう。 – wolmz

関連する問題