2011-01-05 12 views

答えて

4

最高のものは、あなたが最も快適に働くことです。

1

ジョブを実行するのに適切なツールを使用している限り、実際には問題ありません。

アプリケーションを配備する場所(Web対デスクトップ)、新しいテクノロジ/言語の学習に費やす時間、RSSやXML、および/またはHTMLを解析するためのライブラリの可用性を考慮する必要があります。あなたが名前を挙げた3つの言語はすべて良い候補です。

0

RSSファイルは、インターネット経由で入手した形式のXMLです。あなたが言語で必要とするのは、HTTPリクエストを行うことができ、XMLを解析する方法があることだけです。

0

フレームワークコードは何でも構いませんが、XSL変換(またはXPathクエリ)を使用してXMLをより美味しい形式にすることを検討してください。 Espec。あなたがデータの小さなサブセット、または個々の値を探しているならば。

ソースデータが最初に機械で解析されることになっていたのでは、ほとんど「掻き集める」ことはありません。 :)

0

特定のテクノロジがより強力で、デッドライン(またはその他の要因)がある場合は、すべての機能を備えているので、そのテクノロジに従ってください。

これが当てはまらない場合、それはあなたが取り組んでいるプロジェクトの要件になります。また、新しい技術を習得したい/習得することができます。

PHPは最も自然にWebベースのテクノロジーであり、このようなライブラリを使用してSimple HTML DOM Parser(XMLもサポートしています)を使用して、PHPがサポートするWebスクレイピングの複雑さを深く掘り下げて調べることができます。

Javaは良い結果を持つ過去に使用したWeb Harvestという素晴らしいプロジェクトを持っています(非標準のxml構文を学んでいますが、xsltと似ていますが)。システムがあなたのWebスクレイピングを設定すると簡単に変更することができます。

Perlはregex(Java、特にPHPは私が見つけたregexで作業するとちょっと乱雑になることがあります)とregexはあなたの情報で何をしたいのかに応じてもっとも優れていますreasnobleオプションです。

0

頻繁に実行し、多数のサイトにコンテンツを集約する必要があるサーバーアプリケーションを作成する場合は、パフォーマンスが重要な基準になります。これは大量のデータをすばやく処理できる言語を意味します。

時折実行し、多くのページからデータのビットを選ぶだけのプログラムが必要な場合は、特殊な言語を検討することができます。製品TestPlanは、RSSコンテンツをすばやく取得し、簡単な方法で公開できるようにする非常に単純な言語を提供します。

私はこれを重要なスクレイピングプロジェクトで使用しました。驚くほど高速ではありませんが、スクリプトは非常に保守しやすいです。

関連する問題