0
htmlをhtmlの敏捷性に関連するすべてのものから削除しようとしていますが、テキストを保持する必要があります。たとえば、このタグから:htmlから敏捷性のあるテキストのみを取得する
<TR><TD>
<B><A HREF="survival/index.html">Survival</A></B><BR>
<I>Be Suspicious, Be Worried, Be Prepared</I><BR>
<TD>
私は維持したい "疑って..." 私はこの方法を持っていますが、非常にうまく機能しません
:
private static HtmlDocument RemoveHTML(HtmlDocument document)
{
HtmlDocument textOfDoc = new HtmlDocument();
foreach (var node in document.DocumentNode.SelectNodes(".//p|.//title|.//body"))
{
var newNode = HtmlNode.CreateNode(node.InnerText+" ");
textOfDoc.DocumentNode.AppendChild(newNode);
}
return textOfDoc;
}
ありがとう!
私が望んでいたのは、Luceneでインデックスを作成するためにページからテキストを選択する必要があったからです。 私が最後にやったことは、.NetのTidyのようなライブラリでHTMLコードをきれいにしてから、foreach ".//p|.//title|.body"に追加するとうまくいきます。 でも、どちらにも感謝! :) – Coconut