2016-09-16 1 views

答えて

1

Nutch 1.x =>梱包状態ではありません。 Injectorコードを変更してMySQLから読み込むようにしなければなりませんが、これは確かに実行可能です。私は年前の顧客のためにそれをしました。

また、StormCrawlerを使用することもできます。このモジュールにはMySQLモジュールがあり、動作させるための特別な作業は必要ありません。私たちのブログのCloudsearch tutorialは、SCでMySQLを使用する方法を示しています。

Nutch 2.xはGORAを中間層として使用し、IIRCにはSQLプラグインがありました。そのステータスとこれが適切かどうかはわかりません。

+0

こんにちはジュリアン、あなたの答えに感謝。私はナッチだけに興味があります。はい、Apache Nutch 2.3.1のGoraの小道具にmysqlプラグインがありますが、それはデータを保存するためだけであり、URLの入力はしないと仮定しています。 mysqlとmongodbの両方のコメントを外すと何が起こるのか分かりません(mongodbでのみ結果を保存したい場合に備えて)。 – Sparkan

+0

両方のコメントを外すと、恐らく私は思った素敵な混乱を招くでしょう;-)。私はNutch 1.xに固執していました(より良いパフォーマンス、少ない設定など...)、カスタムInjectorを書いてください。とにかく、GORAと同じシリアライゼーションを使って種を処理しない限り、Nutch2.xでも同じことをしなければなりません。これはおそらくあなたが望むものではありません。 –

3

Julienは、これを実現するためにINJECTORコードを変更する必要があると述べています。しかし、私はこれの回避策を提案することができます。サーバーモードでは、コマンドbin/nutch startserverを使用してNUTCHを使用し、データベースからシードURLをロードできます。次に、Nutch REST APIを使用して、データベースからロードされたURLを使用してシードリストを作成し、そのシードファイルをINJECTジョブ作成サービス呼び出しにポイントすることができます。

あなたが現在のREST APIに関するより詳細な情報を見つけることができます: -

http://nutch.apache.org/miredot/1.12/index.html#1153761698 またはhttps://docs.google.com/document/d/1OGg22ATohapP2ycewIaTcUnENc2FeyYzni0ED_Jjxz8/edit https://wiki.apache.org/nutch/NutchRESTAPI

関連する問題