2011-12-13 13 views
1

文字列からhtmlタグを取得するにはどのような方法が最適ですか?文字列からHTMLタグを取得する

私はビデオを含む複数の埋め込みタグを持つhtmlの文字列を持っています。

string embedSrc = propertyText.Substring(propertyText.IndexOf("<embed"), (propertyText.IndexOf ("</embed") - propertyText.IndexOf("<embed") + 8)); 

答えて

2

は簡単にそれを解析するHtmlAgilityPackを使用してみてください:私はこのような何かを行うことができますが、それは最善の方法ではないことができますねHTML文字列

におけるembedタグの数に制限はありません。そうでない場合は、正規表現を使用することができます

+0

ありがとうございますが、プロジェクトは私の手に.Net 2.0とHtmlAgilityPack 3.5が必要です。 – Andy

+0

@Andy、私が投稿したリンクから:「ここでCodePlexに投稿されたバージョンは、.NET Framework 2.0向けです。古いバージョンが必要な場合は、古いページに移動するかメモを削除してください。 ' –

1

私はあなたのためにこれを使用することができると思います。 XmlDocumentのLoadXml(文字列)メソッドを使用してみてください。その後、オブジェクト操作を使用して内部タグまたはテキストを抽出します。見てください XmlDocument from MSDN

+1

私はこれを試しましたが、私のHTML文書に複数のルート要素があるというエラーを受け取ります。 – Andy

+0

メイクは、あなたのHTMLがうまく形成されている、あなたは正しいルートタグを渡していることSHURE: 正しい 「 いくつかのテキスト 」 正しくない(これは複数のルートをスロー) いくつかのテキスト 別のテキスト

1

セバスチャンは、ライブラリを見つけるとHtmlAgilityPackは素晴らしいオプションです。文書構造が必要な場合は、これが最適なオプションです。

正規表現を使用した解析は、一般的にHTMLではノー・ノーと見なされます。それは実際にあなたが入力文字列を読み込もうとしているものに依存します。私はlightweight xml/html parser using Regexを書きました。これは必要な正規表現のパターンを提供することができます。

関連する問題