2012-01-05 14 views
6

を解析するとき、私は次のようにHtmlAgilityPackでHTMLを解析しようとした空白や改行を削除します。残念ながらxhtmlStringが不要な空白や改行文字が含まれていHtmlAgilityPack

HtmlDocument htmlDoc = new HtmlDocument(); 
htmlDoc.LoadHtml(xhtmlString); 

、そうHTMLDOCの_textは次のようになります:ボディの子要素で作業するとき

<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>

これは私にとって問題です。

これらの不要な文字を削除する最も簡単な方法は何ですか?

改行やタブからHTMLを整理するためのHtmlAgilityPackには何らかの機能がありますか?

+0

あなたがこの問題を解決するためにString.Replaceを使用することができます方法はありますか? –

答えて

1

これはドキュメントの字下げであり、不要な空白や改行文字ではありません。
"\ t"、 "\ n"などの特殊文字を置き換えることはできません。

参考にすることができ多分falseにいくつかのプロパティを設定する私はこのHtml Agility Pack: make code look neat
を発見した高速検索を行う

+0

私は特別な文字を手作業で置き換えることができましたが、むしろhtml(意図などなし)を抽出したいと思います。例えば、htmlを入力したユーザーが別のOSを持っているため、改行文字が違うようにエンコードされていると、問題が発生する可能性があります。 .Replace(Environment.NewLine、text); – magnattic

+0

。 UNIXおよびUNIX以外のプラットフォームでも動作できますが、 "\ t"については知らない –

+0

@matheusrufca - 新しい行についてのattieeの関心が有効です。彼は、コードクロスプラットフォームで問題を起こすことについて話しているわけではなく、別のプラットフォームで生成されたhtmlを操作することについて懸念しています。 –

関連する問題