solrでPDFファイルのインデックスを作成しようとしていますが、テキストをUTF-8文字に変換しているように見えます。検索/索引問題があります。
検索は、元の単語の後にキーワードに適用されません:
への変換:たとえば
は、以下のテキストを強調しました。私が知る限り、PDFテキストを索引付けする前にUTF-8に変換している間に、これが起こっています。
String solrUrlString = "http://localhost:8983/solr/example";
SolrClient solr = new HttpSolrClient(solrUrlString);
ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File(filepage.getabsPath()), "application/pdf");
up.setParam("literal.id", filepage.getId());
up.setParam("uprefix", "attr_");
up.setParam("fmap.content", "attr_content");
up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
solr.request(up);