htmlとbodyタグが大文字、小文字、または存在しない可能性があるので、 のhtmlドキュメントから本文を抽出するにはどうすればよいでしょうか?Regex Extract html Body
答えて
正規表現を使用しないでください。Html Agility Packなどを使用してください。
これは はDOMを書き込み/読み取りを構築し、 平野XPATHやXSLTをサポートしている機敏なHTMLパーサである(あなたが実際に XPATHもそれを使用する XSLTを理解する必要はありませんが、心配しないでください。 ..)。 "Webから" HTMLファイルを解析するための.NETコードライブラリです。 パーサーは、「実際の ワールド」の不正なHTMLに対して非常に寛容です。オブジェクト モデルは、 System.Xmlを提案するものに非常に似ていますが、HTMLドキュメント(または ストリーム)の場合は非常に似ています。
次に、body
をXPATHで抽出することができます。
私は同意します。私はこれを使用した、それは速く、きちんとしてきれいだと言う必要があります。 –
これは非常に近いあなたを取得する必要があります:
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
詳細ソリューションを提供してください。 – ShaileshDev
どのようにこのようなものでしょうか?
<body></body>
タグ(RegexOptions.IgnoreCase
のために大文字小文字を区別しない)のすべてをtheBody
という名前のグループに取り込みます。
RegexOptions.Singleline
では、複数のHTMLを1つの文字列として扱うことができます。
HTMLに<body></body>
タグが含まれていない場合、一致のSuccess
プロパティはfalseになります。
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. HTML CSS body autosizing
- 2. extract xpath
- 3. Regex Stripping HTML Tags
- 4. javascript/jquery extract入力タグを含むHTMLテーブルのHTMLテキスト
- 5. body:=> PlayフレームワークのHTML?
- 6. "html"と "body"のCSSプロパティー
- 7. javascript html regex
- 8. DOCTYPE、HTML、HEAD、BODYタグのないBODYのコンテンツを取得する
- 9. PHP Tar Extract w/Variable
- 10. DotNetZip BadReadException on .Extract
- 11. html bodyタグの制限がクロムと 'I.E'
- 12. body/window/html/documentのjQuery .scroll()イベント
- 13. Extract Month from Dateフィールド
- 14. Topia Term Extract - Italian Lexicon
- 15. Extract Google Search Result Redirects
- 16. PLSQL extract procudures oracle 9i
- 17. htmlマークアップ:複数/繰り返しhtml、head、bodyタグなど - 結果
- 18. RegexでHTMLを削除する
- 19. ZipArchive extract to throwing例外
- 20. RTF Extract from SQL Server 2008
- 21. Objective-C String Extractの問題
- 22. extractとdate_partの違い
- 23. ContourからExtract Rectangle OpenCV
- 24. Htmlアジリティパックを使用したHTML BODYノードからの内部テキストの抽出
- 25. RegEx Files with .php .htmlドットなし(フォルダ)
- 26. regex htmlの間のすべてのコメント
- 27. SOAP <Body> ...ストリーム...</Body>
- 28. Fiddler2のPOST BodyのBodyのリクエスト
- 29. gwt/gxtプロジェクトのhtml bodyタグ属性を変更するには
- 30. htmlタグとbodyタグなしでgrailsのページをレンダリングする
重複したhttp://stackoverflow.com/questions/356340/regular-expression-to-extract-html-body-content? – M4N