2011-04-18 9 views
1

連絡先情報を収集して自分のサイトに入力するために100の奇妙なWebサイトを訪問する必要がある状況があります。私が知りたいのは、プログラムやクローラを書くことができれば、それを正しく置くならば、この情報をすべて得ることができるかどうかです。私は、情報が非構造化HTMLで利用可能になると推測しています。そして、構造化するために解析する必要があります。誰もこれを行うのに似た経験をしていますか?また、使用する言語に関する意見もあります。データ入力のプロセスを自動化する方法

+0

私は事 – Wes

答えて

1

あなたはWeb Scraperを探しています。いくつかのGoogle検索では、問題を解決するさまざまな無料の商用製品が登場するはずです。収集しているデータがかなりシンプルで構造が整っている場合は、自分で作成する必要はありません。

0

てみルビー(LIBを機械):例として

http://mechanize.rubyforge.org/mechanize/GUIDE_rdoc.html

agent.get('http://someurl.com/').search(".//p[@class='posted']") 
+0

を解析し、保存することは非常に見える、Googleの人々は、このクロールについて少し知っていると思いますエレガントですが、Rubyを学ぶ必要があります。 – gizgok

関連する問題