文字列からHTMLタグを削除する方法についてはいくつかの質問がありましたが、私の具体的なケースをどう扱うべきかについてはまだ不明です。文字列からhtml画像タグとその間のすべてを削除する
多くの記事で正規表現を使用してHTMLを処理することは推奨されていますが、私の場合はこのルールの賢明な迂回を正当化すると思われます。
私はPDFファイルを解析しようとしています。サンプルPDFファイルの各ページをUTF-32テキストの文字列に変換することに成功しました。画像が表示されると、HTML形式のタグが挿入され、画像の名前と場所が保存されます(他の場所に保存されます)。
私のアプリの別の部分で、私はこれらのイメージタグを取り除く必要があります。私たちはのしかイメージタグを扱っていないので、私は正規表現の使用が正当であると思われます。
私の質問は2つあり:
- が、私はこれらのタグを削除するために正規表現を使用すべきか、私はまだ、このようなBeautifulSoupとしてHTMLの構文解析モジュールを使用する必要がありますか?
- どの正規表現またはBeautifulSoup構造を使用する必要がありますか?言い換えれば、これをどのようにコード化すべきですか?明確にするために
、タグが<img src="/path/to/file"/>
感謝として構成されています!
このファイルには他にHTMLがありますか?それとも、文字通りプレーンテキストと「」タグだけですか? – senderle
@senderleいいえ、タグのほかにHTMLはありません。したがって、本格的なHTML libを使用することに躊躇します。形式は*常に*私がそれをどのように記述するかです。 – blz
私はちょうど答えを掲示しましたが、すべてのイメージの終わりの後に実際にアポストロフィがあるのか、それともタイプミスですか? – joshcartme