Nutch 1.12を使用してウェブサイトのリストをクロールしました。私は、複数のWARCファイル、一つに集められたデータをダンプすることができNutchのデータを複数のwarcファイルにダンプする
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
しかし、どのように:
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
そして使用して、単一のWARCファイルには:私が使用して別のHTMLファイルにクロールデータをダンプすることができますクロールされた各ウェブページについて
Hadoopを使用しなくても同じことが可能ですか? – Chronus