Nutch 1.3とSolr 3.1を連携させようとしています。Nutch 1.3とSolr 3.1のセットアップ
注:私はWindowsを使用しており、Cygwinをインストールしています。
私はNutchのインストールとこれが基づい働いているようだ-depth 3
基本的なクロール(ローカルランタイム/から実行されている)
ビン/ NutchのクロールのURL -dirクロールをしたしていますtehのログ(crawl.log) が... LinkDbは:2011年10月24日午後02時22分47秒で終了し、経過:夜12時00分02秒終了 クロール:クロール
私はSolrのインストールされているとINSTAを検証ローカルホストとLL:8983/Solrの/ adminに
私は
ビン/ Nutchのsolrindex http://localhost:8983/solr次のコマンドを実行すると、私は例の\のSolr \ confフォルダに
をNutchのschema.xmlファイルをコピーしますクロール/ crawldbクロール/ linkdbクロール/セグメント/ *
I取得するには、次のエラー(hadoop.log)
2011-10-24 15:39:26,467 WARN mapred.LocalJobRunner - job_local_0001 org.apache.solr.common.SolrException: ERROR:unknown field 'content' ERROR:unknown field 'content' request: http://localhost:8983/solr/update?wt=javabin&version=2 ... org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216) 2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed!
私には何が欠けていますか?
多分、あなたはcrawl/linkdbの前に-linkdbフラグを見逃していましたか? – nottinhill