Apache NutchをJavaアプリケーションに使用して、1つ以上のWebサイトからWebページをクロールします。基本的には、ページコンテンツ(テキストなど)を処理するために、Webクローラーが検出したWebページごとにJavaアプリケーションのメソッドを呼び出す必要があります。これを達成する方法は?NutchのWebクローリング機能をJavaアプリケーションに統合する
2
A
答えて
3
さて、あなたの質問に"XY Problem"ように見えるあなたが呼び出すことができ、アプリケーションのため、Nutchのは、基本的にはちょうど右のパラメータを持ついくつかのJavaクラスを実行しbin/nutch
とbin/crawl
スクリプト、カスタムJavaアプリケーションでライブラリとして使用することができ適切なパラメータを持つ適切なクラスを使用して、bin/crawl
スクリプトを見ると、完全なサイクルクロールを呼び出すための正しい一連のステップ(およびクラス)が提供されます。これは小さなクロールにのみ使用してください。
ここで、XYの問題に戻ると、必要なのはWebページからカスタムテキスト/メタデータを抽出することだけです.Nutch自体を拡張してカスタムアプリケーションを作成する必要はありません。カスタムパーサー/インデックス作成プラグインの後にいるように、記述した内容が表示されます。このような場合は、見出しプラグイン(https://github.com/apache/nutch/tree/master/src/plugin/headings)をご覧になることをお勧めします。このプラグインは、独自のHtmlParseFilter
プラグインを作成するのに適しています。カスタムコードを書く必要がありますが、Nutchプラグインに含まれています。
https://issues.apache.org/jira/browse/NUTCH-1870もチェックできます。このプラグインでは、XPath式を使用してHTMLのカスタム部分を抽出することができます。
関連する問題
- 1. 自動アップデート機能をJavaアプリケーションに統合
- 2. OrbeonとカスタムJava Webアプリケーションの統合
- 3. Nutchの1.4統合http.agent.nameプロパティ
- 4. Apache NutchとSolrの統合
- 5. NutchとElasticsearchの統合
- 6. Webサービス経由で.NETアプリケーションをJava/J2EEアプリケーションに統合
- 7. Skype for Businessの機能をWPFアプリケーションに統合する方法
- 8. Webアプリケーションを統合するには
- 9. ワードプロセッサ機能をWPFアプリケーションに統合する方法は?
- 10. WebアプリケーションでRを統合
- 11. Java Webアプリケーションの電子メールサーバー機能
- 12. LightScribeの機能をC#アプリケーションと統合する
- 13. 既存のWebアプリケーションにBIRTを統合
- 14. 既存のWebアプリケーションにGroovyを統合
- 15. 統合テストSpring Webアプリケーション
- 16. Java Webアプリケーションの統合テストの経験は、キュウリですか?
- 17. Webクローリング手法に関する情報
- 18. Java EEアプリケーションとの統合
- 19. Solrの6とNutchは2.3.1統合
- 20. Apache ZeppelinノートブックをWebアプリケーションに統合
- 21. bin/nutchはクロール/クローリングURLを挿入しません。
- 22. CSSファイルの統合機能
- 23. データベース機能の統合
- 24. 既存のアプリケーションでのJava Webサービスの統合
- 25. 独自のJava EE WebアプリケーションでのLogiXMLレポートの統合
- 26. JavaアプリケーションとC++アプリケーションの統合/通信
- 27. .NETアプリケーションとJavaアプリケーションの統合 - JMS、ESB ...?
- 28. 効率的なWebクローリング
- 29. 4つの機能を1つの機能に統合
- 30. ウェブコンテンツをデスクトップJavaアプリケーションに統合
他にも掲載されているこの関連の回答をご覧ください:http://stackoverflow.com/questions/10007178/how-do-i-save-the-origin-html-file-with-apache-nutch/19274588#19274588 –