私はアネモネを使用しています。サブドメインもどのようにクロールしますか?例えば私がウェブサイトwww.abc.com
を持っていると、私のクローラもsupport.abc.com
またはblah.abc.com
をクロールする必要があります。私はあなたがcrawl
コマンドに複数のサイトを渡すことができAnemone docsによるRubyの1.8.7とRails 3.アネモネによるサブドメインのクロール
3
A
答えて
4
あなたの問題を解決するGithubでのコミットは次のとおりです。
https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928
リンクあたりとしてあなたアネモネの宝石のファイルを変更し。
-2
を使用しています:もちろん
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")
、あなたの次の問題は、おそらくABCは、クロールのためにあなたを禁止しますそのサイトとは異なる質問です
+0
サブドメインがわからない場合はどうすればよいですか? –
+0
サブドメインがわからない場合は、最初のページから取得したリンクを検索し、サブドメインであるか、または兄弟ドメインであると思われる他のサイトを探して検索することによって開始する必要があります1。その後、セカンダリクロールを開始します。 –
関連する問題
- 1. アネモネfocus_crawlを使ったRuby
- 2. Nutch 1.10 - 同じTLDで100を超えるサブドメインをクロールしません
- 3. レール、カピバラとサブドメイン:どのように特定のサブドメインに
- 4. サブドメインとサブドメインのmod-rewriteサブドメイン
- 5. ツイートをデータベースにクロールする
- 6. インターネットをクロールする
- 7. アプリストアのデータをクロールする
- 8. サブドメインの値をスクリプトに渡すサブドメイン
- 9. robots.txtでは、共有ホスティングのサブドメインNOTサブディレクトリのみのクロールを許可しますか?
- 10. クッキーでGoogleクロール
- 11. 一部のURLがクロールされないようにします
- 12. Googleはどのように動的ページをクロールしますか?
- 13. GWTをクロール可能にする
- 14. Google Scholarをクロールする
- 15. フィードをクロールする方法
- 16. サブドメインのメインドメインファイルにアクセス
- 17. Scrollのクロールの順序
- 18. サブドメインに直結
- 19. URLサブドメインにリダイレクト
- 20. 次のように分布する(展開)モードでNutchのクロール後フレンドリーフォーマット
- 21. ワイルドカードのサブドメインと静的サブドメインのVirtualhost
- 22. クロールhtml generate ajax jquery
- 23. ページのタイトルのみをクロールする
- 24. AJAXサイトは検索エンジンによってクロール可能ですか?
- 25. Nutchクローラーが「ように」クロールしています
- 26. のみをクロールHTMLページ
- 27. Google Mini SharePoint UNCパスのクロール
- 28. サブドメイン
- 29. サブドメイン
- 30. サブドメインにipをバインドする
なぜRailsかNokogiri質問ですか? –
レールとnokogiriタグを削除しました。これはこの質問の中心ではありません。 –