2016-03-29 18 views
0

私はRubyでpdfドキュメントをPDF :: Readerで解析しました。私は、この「箇条書きを一致させることができますかどうかを知りたいRuby PDF :: Regexと一致するリーダー

__ 
|F0| 
|B7| 

:pdfファイルの箇条書きは、内部のこの(私も印刷画面を添付)のようなF0B7との奇妙なキューブとしての私の解析されたテキストで表示されます正規表現を使って、もしそうなら、それを行う適切な方法は何でしょうか?私はこれが最初の文字列の一部であることさえ確信していないので、この問題に取り組むことは全く考えていません。ありがとう。 enter image description here

答えて

0

これはcodepoint F0B7のユニコード記号です。

あなたのUbuntuインストールにはそのグリフを見逃すデフォルトのフォントがあり、フォント定義にグリフがない場合、の共通のアプローチは、そのコードポイントを四角で描画します。それに合わせて、

正規表現は次のようになります。

/\uF0B7/ 

enter image description here