Nutch 1.4を使用してウェブサイトをクロールしました。 ウェブサイトが正常にクロールされ、すべてのページがセグメントにダンプされました。 すべてのセグメントを1つのセグメントにマージしてから、readsegコマンドを使用して、すべてのクロールされたページのテキスト版を取得しました。 これで、そのページに格納されているページのURLとメタデータを調べる必要があります。 どのコマンドを使用するのかわかりませんが、何か違うことをする必要がありますか?Apache Nutch 1.4を使用してクロールおよび解析後に取得されたHTMLドキュメントから特定のタグを取得します。
googleで多くの努力をしてきました。あなたは、別のプラグインを作成する必要があると言った人がいました。誰かが私に教えてくれますか?
ありがとう:) :)
クロールされたすべてのHTMLドキュメントのURLに対応するメタデータを取得したいとします。助けてください! –