2016-04-29 21 views
-1

html agility packを使用してWebスクレーパーを作成しています。ページネーションに関する質問があります。 私は、私が進むのを助ける何かを見つけるためにウェブを検索しましたが、私は近くにいません。私はすべてのページ付けされたページの内容をこすりする必要があります。 htmlagilityを使用してそれを行うためのメカニズムはありますか? セレンのような他のアプリケーションも見つけてそれを調べました。私はhtmlagilityと共にセレンを利用することができる方法はありますか? どんな種類の助けでも大歓迎です。 ありがとうございましたHtmlAgilityPackを使用したページ番号付けページのページ

+0

確かにHtmlAgilityページを使用して、ページネーションリンクを含むページ上のすべてのリンクを取得できますが、あなたの質問は広すぎて答えられません。何を試しましたか? HtmlAgilityパックを使用してウェブサイトをクロールする例は次のとおりです。http://blog.abodit.com/2010/03/a-simple-web-crawler-in-c-using-htmlagilitypack/ –

+0

イアンさん、ありがとう、私はHAPを利用していますウェブサイトを擦っていましたが、私はページネーションでそのことを実現しませんでした。だからちょうど新鮮なアイデアを得たいと思った – shunilkarki

+0

ページネーションはしばしばあなたが探検するように進化するリンク(1 2 3 ... n)の束として実装されます(... 4 5 6 ...) ? –

答えて

1

確かに、セレンと一緒にHAPを使用することができます。基本的に、あなたはセレンドライバのいずれかを使用してURLに移動し、HAP、次のようなものの中にHTMLを読み込むことができます。

IWebDriver driver = new FirefoxDriver(); 
driver.Navigate().GoToUrl(url); 
HtmlDocument doc = new HtmlDocument(); 
doc.LoadHtml(driver.PageSource); 

あなたは現在のページを解析を終えた後、次のページにドライバをナビゲート(次のページリンクを見つけてクリックアクションを実行します)、HTMLを再びHAPに渡します。とにかく、ほとんどのHAP機能はSeleniumに置き換えることができると思いますので、Seleniumのみを使用することを検討してください。

関連する問題