2015-11-15 10 views
10

thisガイドに従って、Apache NutchがURLをクロールするように設定しようとしています。古いガイド(ガイドは1.xのため、私は2.3を使用しています)であり、私は構造に必要な変更を加えました。しかし、私はクロールを実行しようとすると、私はこのエラーを取得:Apache Nutch - パスに関する問題

[email protected]:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2 
No SOLRURL specified. Skipping indexing. 
Injecting seed URLs 
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl 
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob 
Error running: 
    /usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl 
Failed with exit value 1. 
[email protected]:~# 

は(14.04)のUbuntuに新しいので、私はそれは難しいここディレクトリ構造とパスを管理するために見つけることしています。

InjectorJob/usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl

JAVA_HOMEであるが/usr/lib/jvm/java-7-openjdk-amd64

答えて

3

に設定されているあなたはすでにNutchのソースコードをコンパイルすることを確認します。次に、$ {APACHE_NUTCH_HOME}/runtime/local(または$ {APACHE_NUTCH_HOME}/runtime/deploy/bin)からcrawlコマンドを実行します。このことができます

希望、

ルコックドゥ