YQLを使用したHTMLスクレイピング

私はYQLを使用していくつかのウェブサイトをスクラップしようとしています。 YQLコンソールでさまざまなクエリをテストすると結果ノードが取得されます。だから、例えば私が実行したとき： YQLを使用したHTMLスクレイピング

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

は私が空 <results />ノード（ permalink）を取得します。ありがとうございます！

出典

2011-06-28 aateeque

http://www.reverbnation.comはYahoo!からのリクエストをブロックしているヘッダーのような特定の基準に基づいています。私は反響のロボットを見ました.txt、彼らはYahooをブロックしていません"Yahoo Pipes 2.0"ユーザエージェントに基づいて、他のものでなければなりません。

問題を再現するには、自分のサイトに対してYQLクエリを作成し、完全なアクセスログを調べて、完全なリクエストとYahoo!からのすべてのヘッダーを確認します次に、cURLのようなツールを使用して同様のリクエストを行います。

また、ポートでnetcatを実行し、http://yoursite.com:PORTでクエリを実行して、完全な要求を表示することもできます。

YQLを使用したHTMLスクレイピング

答えて

関連する問題