テキスト、制御文字、数字、ウムラウト(ドイツ語)およびその他のutf8文字を含む文字列があります。文字列からコントロールカー以外の印刷可能なutf8文字を削除します。
「言語の一部」ではないすべてのutf8文字を削除したいと考えています。 (完全でないリスト) ":/ \ßä、; \ n \ t"のような特殊文字はすべて保存されるべきです。
悲しいことに、私は画像(link)を追加する必要があります。
アイデア?ヘルプは非常に高く評価されています!
PS:誰もが..私は喜んで文字列をアップロードするはずの特殊文字を殺さない貼り付けサービスを知っていない場合、私はちょうど1を見つけることができませんでした。..
[編集]:私は思います正規表現 "\ P {Cc}"はすべて保存したい文字です。この正規表現に一致しないすべての文字が返されるように、この正規表現を反転できますか?
わかりませんが、\ P {something}の逆バージョンが\ p {something}になる可能性があります。そうでない場合は、[^ \ P {何か}]を試してみてください。 – Pshemo
@Pshemo yeah indead小文字は以下のように動作しているようです。ありがとう! – friesoft
[印刷可能なすべての文字をJava文字列から取り除く最速の方法]の可能な複製(http://stackoverflow.com/questions/7161534/fastest-way-to-strip-all-non-printable-characters-from- a-java-string) – Stewart