HTMLテキストを消去し、Jsoupを使用してHTMLテキストを抽出しようとしています。 HTMLに英語以外の文字が含まれている可能性があります。Jsoupホワイトリスト:非英語の文字を解析する
例えばHTMLテキストは次のとおりです。今、私はJsoup#parse(String html)
使用する場合
String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";
:
String text = Jsoup.parse(html).text();
それは印刷です:
Á example link.
そして私はJsoup#clean(String bodyHtml, Whitelist whitelist)
を使用してテキストをきれい場合:
String text = Jsoup.clean(html, Whitelist.none());
それが印刷されています
Á example link.
私の質問は、どのように私は、テキストWhitelist
とclean()
方法を使用して
Á example link.
を得ることができていますか?私はWhitelist#addTags(String... tags)
を使う必要があるかもしれないので、Whitelist
を使いたいです。
すべての情報は私にとって非常に役立ちます。
ありがとうございました。エンティティが機能を逃れるため不可