html agility packを使用してWebスクレーパーを作成しています。ページネーションに関する質問があります。 私は、私が進むのを助ける何かを見つけるためにウェブを検索しましたが、私は近くにいません。私はすべてのページ付けされたページの内容をこすりする必要があります。 htmlagilityを使用してそれを行うためのメカニズムはありますか? セレンのような他のアプリケーションも見つけてそれを調べました。私はhtmlagilityと共にセレンを利用することができる方法はありますか? どんな種類の助けでも大歓迎です。 ありがとうございましたHtmlAgilityPackを使用したページ番号付けページのページ
-1
A
答えて
1
確かに、セレンと一緒にHAPを使用することができます。基本的に、あなたはセレンドライバのいずれかを使用してURLに移動し、HAP、次のようなものの中にHTMLを読み込むことができます。
IWebDriver driver = new FirefoxDriver();
driver.Navigate().GoToUrl(url);
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(driver.PageSource);
あなたは現在のページを解析を終えた後、次のページにドライバをナビゲート(次のページリンクを見つけてクリックアクションを実行します)、HTMLを再びHAPに渡します。とにかく、ほとんどのHAP機能はSeleniumに置き換えることができると思いますので、Seleniumのみを使用することを検討してください。
関連する問題
- 1. PHPのページ番号付けページのリンク
- 2. Joomla K2は、ページ番号にページ番号を付け加えてページ番号を変更します。
- 3. cakephpページ番号付きのページ分割
- 4. TopScoreDocCollectorを使用したLuceneページ番号
- 5. with_exclusive_scopeを使用したページ番号
- 6. javacriptとphpを使用したテーブルのページ番号付けとフィルタリング
- 7. ページ番号を使用して
- 8. CakePHP:番号が付けられたページ区切りの結果
- 9. Codeigniterページ番号
- 10. rich:dataScrollerページ番号
- 11. HTML5ページ番号
- 12. ActiveResourceページ番号
- 13. (Gallerific)ページ番号と矢印のスタイル設定と位置付けページ:
- 14. mpttのページ番号
- 15. カスタムポストタイプのページ番号
- 16. ActiveReportのページ番号
- 17. SSRSのページ番号
- 18. GETパラメータを使ったCakephp2ページ番号
- 19. jpページ番号付きのPHP pdo
- 20. angularjsのサーバー側のデータでページ番号を付けよう
- 21. 各ページのページ番号(1/4)print
- 22. 次のテキストにページ番号を付け加えよう:
- 23. Symfony:ページ番号+ソート?
- 24. ページ番号python-docx
- 25. ページ番号とオフセット
- 26. データテーブルjQueryページ番号
- 27. Javaページ番号リスト
- 28. ordonateページ番号codeigniter
- 29. アドバンスCodeIgniterページ番号
- 30. jQueryページ番号付きHTMLテーブル
確かにHtmlAgilityページを使用して、ページネーションリンクを含むページ上のすべてのリンクを取得できますが、あなたの質問は広すぎて答えられません。何を試しましたか? HtmlAgilityパックを使用してウェブサイトをクロールする例は次のとおりです。http://blog.abodit.com/2010/03/a-simple-web-crawler-in-c-using-htmlagilitypack/ –
イアンさん、ありがとう、私はHAPを利用していますウェブサイトを擦っていましたが、私はページネーションでそのことを実現しませんでした。だからちょうど新鮮なアイデアを得たいと思った – shunilkarki
ページネーションはしばしばあなたが探検するように進化するリンク(1 2 3 ... n)の束として実装されます(... 4 5 6 ...) ? –