私は一日中トップのニュース記事を分析して統計情報を提供する無料のWebアプリケーションに取り組んでいます。ほとんどのニュースサイトはRSSフィードを提供しています。しかし、ニュースのウェブサイト自体から完全なニュース記事を取得しようとすると問題が発生します。現時点では、適切なRSSフィードを読み、各リンクをたどり、本文を取り除く、各ソース(CNN、NY Timesなど)ごとに別々のNewsSourceクラスを持っています。これは、ニュースウェブサイトが記事のHTML構造を変更することを決定すると、退屈で非常に扱いにくいようです。さまざまなニュースソースをどのようにデータマイニングしますか?
完全なの記事コンテンツ(要約だけではありません)で複数のニュースソースを既に集計しているサービスはありますか(無料ですか)。そうでない場合は、予告なしに変更する可能性のある異なるHTML構造を持つ複数のソースを処理するための提案はありますか?