鋸山 - VoidCC

にタグ内に直接テキストを取得し、私は次のようになり、いくつかのHTMLを持っています。それが存在すれば、2009年を解析する必要があります。鋸山

dtタグ内のテキストは取得できますが、aタグ内のテキストは取得できません。私はrecord.search("dt").inner_textを使用して、これは私にすべてを与える。

これは簡単な質問ですが、これを把握することはできませんでした。

2012-05-29 Mridang Agarwalla

なお 'dt'（内部2つのテキストノードが使用する場合を除き、実際に存在していることも：

def own_text(node) # Find the content of all child text nodes and join them together node.xpath('text()').text end

ここで代替、楽しい答え:)

行動にみる

def own_text(node) node.clone(1).tap{ |copy| copy.element_children.remove }.text end

です'noblanks'オプションを使用してHTMLを解析します）：最初のテキストノードは' 'の前に '' \ n "'、2番目のテキストノードは '" \ n（2009）\ n "'です。 – Phrogz

は、あなたがそうのようなXPathを使用することができ、すべてのテキストとの直接の子ではなく、それ以上のサブ子を取得するには：

を

doc.xpath('//dt/text()')

それとも、検索を使用する場合：XPathのトンを使用して

doc.search('dt').xpath('text()')

出典

2012-05-29 12:53:37 Casper

上記のメソッドは、['XML :: Text']（http://nokogiri.org/Nokogiri/XML/Text.html）ノードのNodeSetを提供します。単一の結果を得るために 'at_xpath'（または単に' at'）を使い、そのノード上の '.content'や' .text'メソッドを呼び出してテキストを文字列として取得することができます。 – Phrogz

dt要素は、2人の子供がいるので、あなたはでそれにアクセスすることができます。

doc.search("dt").children.last.text

出典

2012-05-29 12:46:47 Chamnap

oあなたが望むものを正確に選択する（@ Casperによって提案されるように）正しい答えです。

require 'nokogiri' 
root = Nokogiri.XML('<r>hi <a>BOO</a> there</r>').root 
puts root.text  #=> hi BOO there 
puts own_text(root) #=> hi there

出典

2012-05-29 21:49:06 Phrogz

鋸山

答えて

関連する問題