2016-10-24 11 views
2

Nutch 1.12を使用してウェブサイトのリストをクロールしました。私は、複数のWARCファイル、一つに集められたデータをダンプすることができNutchのデータを複数のwarcファイルにダンプする

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment 

しかし、どのように:

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir 

そして使用して、単一のWARCファイルには:私が使用して別のHTMLファイルにクロールデータをダンプすることができますクロールされた各ウェブページについて

答えて

1

は、かなりの数の試みの後、私は

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc 

は私がまさに必要ないことを見つけるために管理しました!

0

文書ごとに1つのWARCを持つのは少し無駄ですが、ここではあなたが行く: 新しい文書が書き込まれるたびにファイルが回転するように、 'warc.output.segment.size'に低い値を指定できます。 WarcExporterは[https://github.com/ept/warc-hadoop]をボンネットの下で使用し、configがそこで使用されます。セグメントの完全なダンプを個別WARCファイルに:

+0

Hadoopを使用しなくても同じことが可能ですか? – Chronus

関連する問題