js-crawlerを使用してウェブサイトをクロールしていて、CNNの一部であるits landing page links are inside(何らかの理由で動的に生成されるURL)が発生しました。 本当にスクリプトに触れていないクローラです。どうすればいいですか?私のnode.jsクローラに加えて私自身のコードを書くべきですか?この動的な振る舞いをどのように処理するかを知っている高度なクローラはありますか?URLをクロールするurl node.jsで動的リンクを取得する方法
2
A
答えて
2
答えに私のコメントを作る:
は、クライアント側のJavaScriptによって生成されたコンテンツをクロールすることも、Googleは完全には解決していない複雑な問題です。
これを真に行う唯一の方法は、サーバーに安全にサンドボックス化されたある種のヘッドレスブラウザを使用して、ページがブラウザのような環境に読み込まれ、独自のスクリプトを実行して独自の結果のDOMを調べることができます。
でも、必ずしもユーザーインタラクションを必要とするコンテンツは生成されません(コンテンツを表示するためにタブをクリックするなど)。
関連する問題
- 1. Node.jsでURLのparamsを取得する方法
- 2. Node.js/ExpressのURLからJSONオブジェクトを取得する方法
- 3. URLから変数を取得する方法は? Node.jsの
- 4. コンテンツタイプがtext/htmlでないクロールでURLを取得する
- 5. C/C++で特定のURLから動画リンクを取得する方法
- 6. 通知メール内のリンクからURLを取得する方法
- 7. URLからHTMLリンクを取得する方法
- 8. クリックしたリンクのURLを取得する方法は?
- 9. EpiServer特定のページのリンクURLを取得する方法は?
- 10. 動的URLを静的URLにリダイレクトする方法
- 11. URLをJavaでURLから取得する方法
- 12. 動的GoogleマップのURLを取得する方法(静的なマップのURLを持つ)
- 13. ダウンロードリンクのURLを取得する方法
- 14. ページネーションURLを取得する方法
- 15. グラフのURLを取得する方法
- 16. URLを取得する方法
- 17. URLを取得する別の方法
- 18. クロール時にURLを管理する一般的な方法は何ですか?
- 19. CodeigniterでURLをリンクする方法は?
- 20. SEOフレンドリーなURLを取得する方法とサーバー側のコードで実際のURLを取得する方法
- 21. ExpressでNode.jsのURLコンテンツを取得
- 22. URLをnode.jsルートにマップする方法
- 23. XEROコールバックURLに動的URLを使用する方法
- 24. wget:ショップ(#)の文字でURLをクロールする方法
- 25. URLの画像URLを取得する方法http://graph.facebook.com/{ANYUSERID}/picture?
- 26. Google WebフォントURLからフォント名を取得する方法URL
- 27. Facebook URL - Angularjs現在のURLを取得する方法
- 28. urlパラメータ値をjavascript経由でURLリンクにする方法は?
- 29. URLでハッシュを使用するときにurlパラメータを取得する方法
- 30. node.jsのURLからファイルを同期的にダウンロードする方法
クライアント側のJavascriptによって生成されるコンテンツをクロールすることは、Googleが完全に解決していないという複雑な問題です。真にそれを行うための唯一の方法は、あなたのサーバー上で何らかのヘッドレスブラウザを使用して、ページがブラウザのような環境にロードされ、独自のスクリプトを実行して独自のコンテンツを生成し、 DOM。それでも、必ずしもユーザーインタラクションを必要とするコンテンツを生成するとは限りません(コンテンツを表示するためにタブをクリックするなど)。 – jfriend00
私はそれに投票することができるように応答する!ありがとうございました – user1025852