htmlドキュメントからhtml "フラグメント"を効率的に抽出する方法を探しています。このうち私のfirst implementationはHtml Agility Packを使用していました。これは、大量のhtmlドキュメントで抽出を実行するまで、この問題を攻撃するための合理的な方法であるようでした。ドキュメント全体を解析するのに要する時間のために、パフォーマンスは非常に悪いものでした)。htmlドキュメントからhtmlフラグメントを抽出する
誰でも私の目標を達成するより効率的な方法を提案できますか?
要約すると:私の目的のために
を、HTMLの "フラグメント" は、HTMLの
<body>
タグ理想的 文書の内部のすべての内容として定義され、I のコンテンツが変更されていない場合は、 には
<html>
または<body>
が含まれています。(私は私はそもそもHTML フラグメントを渡されたと仮定します)私は(文字列として)メモリに利用できるHTML文書全体を持って、私はオンデマンドでストリーミングされることはありません - ので、潜在的なソリューションはそれを心配する必要はありません。
パフォーマンスは非常に重要なので、潜在的な解決方法でこれを考慮する必要があります。
サンプル入力:
<html>
<head>
<title>blah</title>
</head>
<body>
<p>My content</p>
</body>
</html>
所望の出力:
<p>My content</p>
C#やVB.NETでの解決策は歓迎されるであろう。
私は私の質問でもっと明確にすべきだったと思う。メモリ内にhtmlドキュメントの文字列全体があると仮定できます。私はそれを必要に応じてストリーミングしません。私はそれに応じて私の質問を更新しました。 – DanP
+1。これは、OPが望んでいることをはるかに最速の方法で行うことです。そして、あなたは読者の流れを必要としません。 HTMLを含む普通の文字列はうまく動作します。 – NotMe
これは非常に合理的なアプローチのように思えます。 – DanP