2012-04-06 10 views
0

テキスト要素の一部を取り出して他の目的で再利用する必要があるXmlの量が多かったです。 (私はXMLデータを取得するためにXDocumentを使用しています)。Xmlから文字列を解読する問題

しかし、要素に含まれるテキストをどのようにデコードするのですか?ここでも使われている書式は何ですか?いくつかの例:

"What is the meaning of this® asks Sonny." 
"The big centre cost 1¾ million pounds" 
"... lost it. ® The next ..." 

私はHttpUtility.HtmlDecodeを試してみましたが、それはトリックをしませんでした。私が "& reg;"を2回デコードすると、明らかに正しくはない®に変わります。

®改行です。 & reg;おそらく疑問符です。 190一、私は知らない。おそらくドットまたはカンマ?

アイデアを歓迎します。

答えて

0

表示している文字列がHTMLでエンコードされていて、次にXMLエンコードされている(またはHTMLで表示されている)ようです。 >® - - the ISO Latin-1 entitiesあたり>®(登録商標マーク) - ®

は同様&amp#190;四分の三を示す画分に変わるのと同じように動作する必要がありそれ

®が正しいあります。

+0

この問題は、テキストをデコードしても意味をなさないという問題があります。 2回デコードすると、®記号が本当に疑問符であることが明らかになります。 – BlueVoodoo

+0

しかし、結果を見て、これは動作していない唯一のものかもしれません。他のものを2回デコードすることはうまくいくようです。もう少しテストします。 – BlueVoodoo

+0

うん、それ以外のものはすべて動作する。これを答えとして受け入れ、そのシンボルに置き換えます。 – BlueVoodoo