2009-08-18 5 views
0

私はhtmlエンコードされたテキストをutf-8に翻訳してデータベースに格納しようとしています。 html_entity_decodeまたはiconvの両方で見逃してしまう文字があります。&Yuml vs&yumlのようなhtml_entity_decode文字

私は長い文字列を書き留めましたが、今は表示されています。& Yumlは翻訳されていませんが、& yumlです。

他にも似たような記号もあります。

これらの不一致を最もうまく処理する方法についてのアドバイスはありますか?それぞれの文字が正しく翻訳されていることを確認してください。

答えて

1

& blahの形式のもの; (X)HTMLの実体参照です。あなたがそれらをすべて持っていることを確認する必要がある場合は、最後のUTF-8出力にそのパターンが含まれていないことを確認してください。また、最後にセミコロンを付けずにたくさん見つけます(しかし、多くの誤認があります)。

ウィキペディアは、当然list of HTML/XHTML/XML entity codesです。その(長い)リストを実装して、野生のものがあればそれを見つけることができます。

+0

ありがとう、derobert、 私はこのような長いリストを通らずにこれを行う方法があることを望んでいました(何かが存在することを望む)。 私はそれを掃除しようとしているように見え、将来それを必要とする人々のために機能を投稿します。 – pedalpete

関連する問題