2009-07-14 13 views
0

私は一日中トップのニュース記事を分析して統計情報を提供する無料のWebアプリケーションに取り組んでいます。ほとんどのニュースサイトはRSSフィードを提供しています。しかし、ニュースのウェブサイト自体から完全なニュース記事を取得しようとすると問題が発生します。現時点では、適切なRSSフィードを読み、各リンクをたどり、本文を取り除く、各ソース(CNN、NY Timesなど)ごとに別々のNewsSourceクラスを持っています。これは、ニュースウェブサイトが記事のHTML構造を変更することを決定すると、退屈で非常に扱いにくいようです。さまざまなニュースソースをどのようにデータマイニングしますか?

完全なの記事コンテンツ(要約だけではありません)で複数のニュースソースを既に集計しているサービスはありますか(無料ですか)。そうでない場合は、予告なしに変更する可能性のある異なるHTML構造を持つ複数のソースを処理するための提案はありますか?

答えて

0

私はこれは素晴らしい答えではないことを知っていますが、コロラド州のスタートアップの名前は、構造化されていない/半構造化されたデータを取り込み、構造化された形式に解析することができます。私はあなたがそれを見つけるかもしれない 'データ'のためのcoloradostartssブログを検索すると思います。

0

readabilityを使用してください。使用する言語の可読性ポートを検索します。

関連する問題