ボタンをクリックしてインデックスを作成した後、urlからファイルをダウンロードすることは可能ですか?ボタンクリック後にapache nutchファイルをダウンロードする
例 - URLがhttp://example.com とし、http://example.comのボタンをクリックして保存するとファイルがダウンロードされます。どのように我々はapache nutchでそれを行うことができます。
ボタンをクリックしてインデックスを作成した後、urlからファイルをダウンロードすることは可能ですか?ボタンクリック後にapache nutchファイルをダウンロードする
例 - URLがhttp://example.com とし、http://example.comのボタンをクリックして保存するとファイルがダウンロードされます。どのように我々はapache nutchでそれを行うことができます。
これは、ダウンロードアクションがダイレクトファイルへの単なるリンクであれば、ボタンがどのように実装されているかにはまったく依存しません。ダウンロードアクションが、いくつかのjavascriptイベントまたは<button>
要素を持つフォームで発生した場合、Nutchはこれを検出しません。おそらくprotocol-selenium
を使用すると、リンクがいくつかのjavascriptを使用して生成される場合に役立ちます。
EDITはボタンのonclickイベントのようなものでトリガされているので
、その後、あなたの最善の策はprotocol-interactiveselenium
(https://github.com/apache/nutch/blob/master/src/plugin/protocol-interactiveselenium/README.md)を使用し、必要であれば、おそらくカスタムハンドラを実装することです。私はこれを個人的にテストしていませんが、うまくいくはずです。
ありがとうございます:)ファイルをダウンロードするためのハイパーリンクは、ページがロードされた後、javascriptによってボタンにアタッチされます。私はnutch-default.xmlでseleniumプラグインを使用しようとしましたが、運はありません:( – ammu