私はApache Nutchには新しく、mysqlデータベースから動的にURLを挿入したいと思います。 Apache Nutchはこのような可能性を提供していますか?そうでない場合は、私が学ぶことができる同様の実験はありますか?または何か提案?Apache Nutchにseed.txtの代わりにmysqlからURLを注入してください。
答えて
Nutch 1.x =>梱包状態ではありません。 Injectorコードを変更してMySQLから読み込むようにしなければなりませんが、これは確かに実行可能です。私は年前の顧客のためにそれをしました。
また、StormCrawlerを使用することもできます。このモジュールにはMySQLモジュールがあり、動作させるための特別な作業は必要ありません。私たちのブログのCloudsearch tutorialは、SCでMySQLを使用する方法を示しています。
Nutch 2.xはGORAを中間層として使用し、IIRCにはSQLプラグインがありました。そのステータスとこれが適切かどうかはわかりません。
Julienは、これを実現するためにINJECTORコードを変更する必要があると述べています。しかし、私はこれの回避策を提案することができます。サーバーモードでは、コマンドbin/nutch startserverを使用してNUTCHを使用し、データベースからシードURLをロードできます。次に、Nutch REST APIを使用して、データベースからロードされたURLを使用してシードリストを作成し、そのシードファイルをINJECTジョブ作成サービス呼び出しにポイントすることができます。
あなたが現在のREST APIに関するより詳細な情報を見つけることができます: -
http://nutch.apache.org/miredot/1.12/index.html#1153761698 またはhttps://docs.google.com/document/d/1OGg22ATohapP2ycewIaTcUnENc2FeyYzni0ED_Jjxz8/edit https://wiki.apache.org/nutch/NutchRESTAPI
- 1. Nutchがseed.txtで指定されたURL以外のURLをクロールしない
- 2. Apache Nutch:フェッチするURLがありません。シードリストとURLフィルタを確認してください。
- 3. ユーザロールの代わりにユーザロール(例:Admin、User)を入力してください。
- 4. Playframework:Twirlの代わりにScalatagsを使用してください
- 5. メインの代わりにrun()を使用してください
- 6. `inserted_at`の代わりに` created_at`を使用してください
- 7. 代わりにsitecustomize.pyを使用してください:.bash_profile?
- 8. 代わりにliを使用してください
- 9. helvetica ttfまたは代わりにしてください!
- 10. コードブロックに空白の代わりにタブを挿入しないようにしてください
- 11. エラー:object.Finalizeをオーバーライドしないでください。代わりに、デストラクタを提供してください
- 12. ファイルの代わりに変数にmofcomp.exeを使用してください。
- 13. 挿入する代わりに、挿入する前に列を変更してください
- 14. 注釈の代わりに?
- 15. AIX5.2にApache、php、mysqlをインストールしてください
- 16. テーブルの代わりに新しい行を付けてください
- 17. ダウンロード画像からURLを入力してください。
- 18. system32の代わりに独自のmsvcrt.dllを使用してください
- 19. controller.jsの代わりにdirective.jsのangularjsモジュールを使用してください。
- 20. Microsoft botのインデックスの代わりに説明を表示してください。
- 21. tomee.confの代わりにsystem.propertiesのDataSourceを設定してください
- 22. rails simpleform submitのボタンの代わりにenterを押してください
- 23. apacheマホートからの推奨として「ムービーID」の代わりに「ムービーID」の代わりに
- 24. Apache 2.4 - 末尾のパスの代わりに完全なURLに基づいてProxyPassを設定してください
- 25. redirの代わりにadb forwardを使用してください
- 26. オブジェクトの代わりにangle-uiタイプを選択してください。
- 27. スクロールピクセルの代わりにスクロールパーセンテージで画像を変更してください
- 28. Jenkins - Androidエミュレータの代わりにGenymotion VMを使用してください
- 29. ng-routerの代わりにangle ui-routerを実装してください
- 30. Spring Kafkaシリアライザ/デシリアライザにObjectMapperを注入してください
こんにちはジュリアン、あなたの答えに感謝。私はナッチだけに興味があります。はい、Apache Nutch 2.3.1のGoraの小道具にmysqlプラグインがありますが、それはデータを保存するためだけであり、URLの入力はしないと仮定しています。 mysqlとmongodbの両方のコメントを外すと何が起こるのか分かりません(mongodbでのみ結果を保存したい場合に備えて)。 – Sparkan
両方のコメントを外すと、恐らく私は思った素敵な混乱を招くでしょう;-)。私はNutch 1.xに固執していました(より良いパフォーマンス、少ない設定など...)、カスタムInjectorを書いてください。とにかく、GORAと同じシリアライゼーションを使って種を処理しない限り、Nutch2.xでも同じことをしなければなりません。これはおそらくあなたが望むものではありません。 –