さまざまなニュースソースをどのようにデータマイニングしますか？

私は一日中トップのニュース記事を分析して統計情報を提供する無料のWebアプリケーションに取り組んでいます。ほとんどのニュースサイトはRSSフィードを提供しています。しかし、ニュースのウェブサイト自体から完全なニュース記事を取得しようとすると問題が発生します。現時点では、適切なRSSフィードを読み、各リンクをたどり、本文を取り除く、各ソース（CNN、NY Timesなど）ごとに別々のNewsSourceクラスを持っています。これは、ニュースウェブサイトが記事のHTML構造を変更することを決定すると、退屈で非常に扱いにくいようです。さまざまなニュースソースをどのようにデータマイニングしますか？

完全なの記事コンテンツ（要約だけではありません）で複数のニュースソースを既に集計しているサービスはありますか（無料ですか）。そうでない場合は、予告なしに変更する可能性のある異なるHTML構造を持つ複数のソースを処理するための提案はありますか？

出典

2009-07-14 David Brown

私はこれは素晴らしい答えではないことを知っていますが、コロラド州のスタートアップの名前は、構造化されていない/半構造化されたデータを取り込み、構造化された形式に解析することができます。私はあなたがそれを見つけるかもしれない 'データ'のためのcoloradostartssブログを検索すると思います。

出典

2009-09-09 20:40:06 ybakos

readabilityを使用してください。使用する言語の可読性ポートを検索します。

出典

2011-09-22 01:23:48 Ivelin

さまざまなニュースソースをどのようにデータマイニングしますか？

答えて

関連する問題