2016-04-05 6 views
0

をクロールするために展開することができます:私は(これらは数万のバッチにすることができる)へのURLのリストを与えることができるWebサービスを作成しますはNutchのはNutchのをするために使用することができ、特定のページ

  1. - このコマンドラインを囲む簡単なラッパーになる可能性があります
  2. ジョブが完了したかどうかを繰り返し確認してください。これはコマンドラインを囲む単純なラッパーです。
  3. リターン:ダンプされたhtmlページを持つデータセットを取得するコマンドラインを囲む単純なラッパーであること

答えて

1

はい、これはApache Nutchを使用して行うことができます。

サービスとしてNutchを起動したり、HTTP呼び出しでURLを提供したり、ジョブの完了を監視したり、データをダンプしたりできるNutch REST API [0](開発中)をご覧ください。

[0] - ここで注意すべきhttps://wiki.apache.org/nutch/Nutch_1.X_RESTAPI

1

他の事は、私はNutchの中で集中クロールを有効にする方法について説明どこにもこのQurora postをチェックアウトすることができるということです。

関連する問題