2016-08-19 4 views
2

solrでPDFファイルのインデックスを作成しようとしていますが、テキストをUTF-8文字に変換しているように見えます。検索/索引問題があります。

demo

検索は、元の単語の後にキーワードに適用されません:

demo

への変換:たとえば

は、以下のテキストを強調しました。私が知る限り、PDFテキストを索引付けする前にUTF-8に変換している間に、これが起こっています。

String solrUrlString = "http://localhost:8983/solr/example"; 
    SolrClient solr = new HttpSolrClient(solrUrlString); 

    ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract"); 

    up.addFile(new File(filepage.getabsPath()), "application/pdf"); 

    up.setParam("literal.id", filepage.getId()); 
    up.setParam("uprefix", "attr_"); 
    up.setParam("fmap.content", "attr_content"); 

    up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true); 
    solr.request(up); 

答えて

0

私はあなたがインデックスにしようとしていると仮定したテキストコンテンツの言語は、インドの方言の一つグジャラートです:参考

は、以下のインデックスを作成するコードです。 Solrは様々な言語の言語分析を提供していますが、私はインドの言語に関しては恐れており、ヒンディー語のみに限定しています。ヒンディー語では、次のAnalyzerクラスクラスを提供します。solr.IndicNormalizationFilterFactory、solr.HindiNormalizationFilterFactory、solr.HindiStemFilterFactory。私はGujaratiのためのドキュメントをドキュメンテーションで見ることはできません。あなたはSolrの言語解析セクションをご覧になれますhttps://cwiki.apache.org/confluence/display/solr/Language+Analysis。だから、グジャラートは質問の言語であるが、私は分析があいまいで、あいまいで、互換性がないと思う。あなたが何か良いものを見つけたら教えてください。お役に立てれば :) 。