2017-01-16 2 views
0

Feedjiraを使ってニュースフィードのコンテンツ分析を支援しようとしましたが、RSSフィードはRSSでそれらを含めるのではなく、 Feedjira not adding content and author "。 Feedjiraを使用して記事のURLを取得する予定ですが、Nokogiriを使用して記事をスクラップし、関連する部分を選び出します。さまざまな要件を持つNokogiriを使用して異なるURLをデータベースから削る方法

問題は、それぞれのメディアのコンセントがページのフォーマットが異なり、Nokogiriがデータベース(Feedjira提供)からURLを取得し、関連するフィードのタイトルに応じて最適な方法を知る必要があることですFeedjira syncのデータベース)は、ページを特定の方法でスクラブし、データベースの別のテーブルに保存します。誰でも何か提案がありますか?

答えて

0

あなたの特別な使用例はわかりませんが、ニュースフィードを使用したコンテンツ分析も行っています。 Readabilityには一般的なコンテンツスクレイパーがあります。

+0

私は一見しましたが、非常に一般的に見えます。理想的には、作者だけでなく様々な属性も掻き分ける何らかの方法を探しています。可読性がこれを行うことができるのかどうかわかりません。私は[Mercury Parser](https://mercury.postlight.com/web-parser/)と[Ruby wrapper](https://github.com/moisesnarvaez/mercury_parser)を見つけましたが、彼らの言葉には限界があるようです。 –

0

問題は、すべてのフィードジェネレータがHTMLジェネレータとちょっと違ったやり方で動作するということです。 RDF、RSS、またはATOMフィードの中に特定のフィールドがあると仮定できますが、フィードの作成者は非常に便利なオプションのタグを使用する可能性があるため、それらを探すコードを記述する必要があります。

私は過去にいくつかのフィードアグリゲータを書いていました。これには、毎日1000回以上のフィードを処理していたフィードアグリゲータも含まれていました。フィードの種類、ATOMとRSS、RDFを比較することで、その形式で面白かったフィールドを賢明にチェックし、データがあれば抽出することができました。

あまりにも頻繁に間違ったデータを取得したり、出力を混乱させたり、データをスキップして出力にギャップが残るようにしておくと、コードを書く準備ができます。それは正しく行われます。

あなたは最後に見たものとそれをもう一度見るはずのものを追跡するために、バッキングデータベースを利用したいと思うでしょう。それは良いネットワーク市民であることの一部です。最後にn回フィードがダウンしたかどうかを追跡して、死んだサイトを削除することもできます。

関連する問題