HtmlAgilityPack

を解析するとき、私は次のようにHtmlAgilityPackでHTMLを解析しようとした空白や改行を削除します。残念ながらxhtmlStringが不要な空白や改行文字が含まれていHtmlAgilityPack

HtmlDocument htmlDoc = new HtmlDocument(); 
htmlDoc.LoadHtml(xhtmlString);

、そうHTMLDOCの_textは次のようになります：ボディの子要素で作業するとき

<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>

これは私にとって問題です。

これらの不要な文字を削除する最も簡単な方法は何ですか？

改行やタブからHTMLを整理するためのHtmlAgilityPackには何らかの機能がありますか？

出典

2012-01-05 magnattic

あなたがこの問題を解決するためにString.Replaceを使用することができます方法はありますか？ –

これはドキュメントの字下げであり、不要な空白や改行文字ではありません。
"\ t"、 "\ n"などの特殊文字を置き換えることはできません。

参考にすることができ多分falseにいくつかのプロパティを設定する私はこのHtml Agility Pack: make code look neat
を発見した高速検索を行う

出典

2012-01-05 13:57:25

私は特別な文字を手作業で置き換えることができましたが、むしろhtml（意図などなし）を抽出したいと思います。例えば、htmlを入力したユーザーが別のOSを持っているため、改行文字が違うようにエンコードされていると、問題が発生する可能性があります。 .Replace（Environment.NewLine、text）; – magnattic

。 UNIXおよびUNIX以外のプラットフォームでも動作できますが、 "\ t"については知らない –

@matheusrufca - 新しい行についてのattieeの関心が有効です。彼は、コードクロスプラットフォームで問題を起こすことについて話しているわけではなく、別のプラットフォームで生成されたhtmlを操作することについて懸念しています。 –

HtmlAgilityPack

答えて

関連する問題