2017-03-01 1 views
-1

最近NutchとSolrの設定が完了したらNutchを学びます。 NutchとクロールしてSolrにインデックスを作成したいと思っています。ジョブを索引付けするときに何らかのエラーが発生します。以下のエラーが表示されます。はNutch 2.3.1とsolr 6.4.1を統合します。インデックス作成ジョブでは何か問題があります

SolrIndexerJob: org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: 


Expected content type application/octet-stream but got text/html;charset=iso-8859-1. 


at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:455) 
at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:197) 
at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:117) 
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168) 
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146) 
at org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit(SolrIndexWriter.java:146) 
at org.apache.nutch.indexer.IndexWriters.commit(IndexWriters.java:124) 
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:186) 
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202) 
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211) 

誰かが私に助言を与えることができれば幸いです。前もって感謝します。

+0

ビン/クロールURL http:// localhost:8983/solr 2を実行すると上記のエラーが発生するが、コマンドをbin/crawl urlsに変更するとhttp:// localhost:8983/solr/collection1 2 、それ以上のエラーは発生しませんが、nutchからクロールされたデータはsolrにプールされていないようです。 –

答えて

0

あなたはコレクションまたはコアのNut​​ch Solr URLを指定する必要がありますので、url http://localhost:8983/solr/collection1は意味があります。しかし、Nutchのsuggestions versions各ツールを使用して、全体のエコシステムを機能させる必要があります。

Apache Avro 1.7.6 
Apache Hadoop 1.2.1 and 2.5.2 
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X) 
Apache Cassandra 2.0.2 
Apache Solr 4.10.3 
MongoDB 2.6.X 
Apache Accumlo 1.5.1 
Apache Spark 1.4.1 

私は4.10.3よりも、そのかなり最新としてSolr-5.2.1を使用することをお勧めしますし、私はそれが私のプロジェクトに取り組んで作りました。私が覚えているように、Solr 6+を使用しようとしたときと同じ例外が発生しました。

幸運を祈る!

+0

ありがとう、私はこれのためのテストを持っています –

関連する問題