私は様々な技術についていくつか学んだ後、UWP + NoSQLを使って小さなプロジェクトを作りたがっていました。私は星座をつかんで毎朝私のラズベリーパイに表示する小さなUWPアプリを作りたかったのです。ブラウザのようなWebページコンテンツを取得する
だから私はWebClient
を取って、私は次の操作を行います(
WebClient client = new WebClient();
client.Headers[HttpRequestHeader.UserAgent] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2";
string downloadString = client.DownloadString("http://www.horoscope.com/us/horoscopes/general/horoscope-general-daily-today.aspx?sign=2");
しかし、興味深い部分は内容ではありませんので、それは、この要求は、ブラウザから来ていないことを検出しているようです私がブラウザで確認すると、それは最初のHTMLにあります、フィドラーによると)。
私もScrapySharpで試しましたが、私は同じ結果を得ました。どんな考え?
(私はすでにUWPの一部をやったので、私はそれは、「ボット」として検出されたからといって、私の個人的なプロジェクトのトピックを変更したくない)
EDIT
私は十分にはっきりしていなかったようだ。問題はありません* Iは、HTMLを解析することができないだと、問題は私が
ここEDIT2
は、私が取得するものであるScrapySharp/Webクライアントを使用する場合に期待されるHTMLを受けていないということです**です。 http://pastebin.com/sXi4JJRG
そして、私は(例で)あなたは、以下に示すコードスニペットを使用してWebページのコンテンツ全体を読むことができる「ドメインによるスター評価」+各星
私はそのXMLを見つけようとしましたが、できませんでした。どこにあるのか少し説明できますか? – ganchito55
@ ganchito55申し訳ありませんが、私は初期のHTMLを意味し、XMLは意味しませんでした。私はちょうどそれがajaxコールの中にロードされていないと言っていた – J4N
あなたはHTMLの敏捷性パックを試しましたか? –