htmlから敏捷性のあるテキストのみを取得する

htmlをhtmlの敏捷性に関連するすべてのものから削除しようとしていますが、テキストを保持する必要があります。たとえば、このタグから：htmlから敏捷性のあるテキストのみを取得する

<TR><TD> 
<B><A HREF="survival/index.html">Survival</A></B><BR> 
<I>Be Suspicious, Be Worried, Be Prepared</I><BR> 
<TD>

私は維持したい "疑って..." 私はこの方法を持っていますが、非常にうまく機能しません

：

private static HtmlDocument RemoveHTML(HtmlDocument document) 
    { 
     HtmlDocument textOfDoc = new HtmlDocument(); 
     foreach (var node in document.DocumentNode.SelectNodes(".//p|.//title|.//body")) 
     { 
      var newNode = HtmlNode.CreateNode(node.InnerText+" "); 
      textOfDoc.DocumentNode.AppendChild(newNode); 
     } 
     return textOfDoc; 
    }

ありがとう！

出典

2011-01-27 Coconut

P、TITLE、BODYタグのみを抽出しているようです。

document.DocumentNode.SelectNodes(".//p|.//title|.//body|.//i")

出典

2011-01-28 11:27:51

私が望んでいたのは、Luceneでインデックスを作成するためにページからテキストを選択する必要があったからです。私が最後にやったことは、.NetのTidyのようなライブラリでHTMLコードをきれいにしてから、foreach ".//p|.//title|.body"に追加するとうまくいきます。でも、どちらにも感謝！ :) – Coconut

htmlから敏捷性のあるテキストのみを取得する

答えて

関連する問題