Nutchのデータを複数のwarcファイルにダンプする

Nutch 1.12を使用してウェブサイトのリストをクロールしました。私は、複数のWARCファイル、一つに集められたデータをダンプすることができNutchのデータを複数のwarcファイルにダンプする

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

しかし、どのように：

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

そして使用して、単一のWARCファイルには：私が使用して別のHTMLファイルにクロールデータをダンプすることができますクロールされた各ウェブページについて

出典

2016-10-24 Chronus

は、かなりの数の試みの後、私は

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

は私がまさに必要ないことを見つけるために管理しました！

出典

2016-10-26 12:53:41 Chronus

文書ごとに1つのWARCを持つのは少し無駄ですが、ここではあなたが行く：新しい文書が書き込まれるたびにファイルが回転するように、 'warc.output.segment.size'に低い値を指定できます。 WarcExporterは[https://github.com/ept/warc-hadoop]をボンネットの下で使用し、configがそこで使用されます。セグメントの完全なダンプを個別WARCファイルに：

出典

2016-10-24 15:00:56

Hadoopを使用しなくても同じことが可能ですか？ – Chronus

Nutchのデータを複数のwarcファイルにダンプする

答えて

関連する問題