2011-01-27 8 views
0

htmlをhtmlの敏捷性に関連するすべてのものから削除しようとしていますが、テキストを保持する必要があります。たとえば、このタグから:htmlから敏捷性のあるテキストのみを取得する

<TR><TD> 
<B><A HREF="survival/index.html">Survival</A></B><BR> 
<I>Be Suspicious, Be Worried, Be Prepared</I><BR> 
<TD> 

私は維持したい "疑って..." 私はこの方法を持っていますが、非常にうまく機能しません

private static HtmlDocument RemoveHTML(HtmlDocument document) 
    { 
     HtmlDocument textOfDoc = new HtmlDocument(); 
     foreach (var node in document.DocumentNode.SelectNodes(".//p|.//title|.//body")) 
     { 
      var newNode = HtmlNode.CreateNode(node.InnerText+" "); 
      textOfDoc.DocumentNode.AppendChild(newNode); 
     } 
     return textOfDoc; 
    } 

ありがとう!

答えて

0

P、TITLE、BODYタグのみを抽出しているようです。

document.DocumentNode.SelectNodes(".//p|.//title|.//body|.//i") 
+0

私が望んでいたのは、Luceneでインデックスを作成するためにページからテキストを選択する必要があったからです。 私が最後にやったことは、.NetのTidyのようなライブラリでHTMLコードをきれいにしてから、foreach ".//p|.//title|.body"に追加するとうまくいきます。 でも、どちらにも感謝! :) – Coconut

関連する問題