1
Apache Tikaでテキストを抽出するためにPDFファイルを解析しています。Apache Tikaでtext/PDFから特殊文字を削除する
//Create a body content handler
BodyContentHandler handler = new BodyContentHandler();
//Metadata
Metadata metadata = new Metadata();
//Input file path
FileInputStream inputstream = new FileInputStream(new File(faInputFileName));
//Parser context. It is used to parse InputStream
ParseContext pcontext = new ParseContext();
try
{
//parsing the document using PDF parser from Tika.
PDFParser pdfparser = new PDFParser();
//Do the parsing by calling the parse function of pdfparser
pdfparser.parse(inputstream, handler, metadata,pcontext);
}catch(Exception e)
{
System.out.println("Exception caught:");
}
String extractedText = handler.toString();
上記のコード作業とテキストは引用されています。
PDFファイルには@/& /£や商標記号などの特殊文字がいくつかあります。抽出プロセス中または抽出プロセス後にこれらの特殊文字を削除するにはどうすればよいですか?
W文字列の正規表現? [String.replace](https://docs.oracle.com/javase/7/docs/api/java/lang/String.html#replace(java.lang.CharSequence、%20java.lang.CharSequence))? – Gagravarr