2011-06-28 13 views
0

私はYQLを使用していくつかのウェブサイトをスクラップしようとしています。 YQLコンソールでさまざまなクエリをテストすると結果ノードが取得されます。だから、例えば私が実行したとき: YQLを使用したHTMLスクレイピング

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body' 

は私が空 <results />ノード( permalink)を取得します。 ありがとうございます!

答えて

1

http://www.reverbnation.comはYahoo!からのリクエストをブロックしているヘッダーのような特定の基準に基づいています。私は反響のロボットを見ました.txt、彼らはYahooをブロックしていません"Yahoo Pipes 2.0"ユーザエージェントに基づいて、他のものでなければなりません。

問題を再現するには、自分のサイトに対してYQLクエリを作成し、完全なアクセスログを調べて、完全なリクエストとYahoo!からのすべてのヘッダーを確認します次に、cURLのようなツールを使用して同様のリクエストを行います。

また、ポートでnetcatを実行し、http://yoursite.com:PORTでクエリを実行して、完全な要求を表示することもできます。

関連する問題discussed here

+0

http://www.amazon.in/Xiaomi-Redmi-4A-Grey-16GB/dp/B01FM7K078?_encoding=UTF8&psc=1&refRID=87MVWA5E1E8PEBZE8XZN&ref_=nav_custrec_signin&ref_=pd_rhf_gw_p_img_1からイメージとメタ説明をこすりする方法任意のアイデア? –

関連する問題