Nokogiriを使用してWebページ上に表示されるテキストを抽出するより良い方法はありますか?現在私はinner_text
メソッドを使用していますが、このメソッドは多くのJavaScriptを可視テキストとしてカウントします。キャプチャしたい唯一のテキストは、画面上に表示されるテキストです。例えばNokogiriグラブのみ表示inner_text
は、IRBに私は、Ruby 1.9.2-P290中で次の手順を実行している場合:私は単語を検索する場合、「機能」私は、それがリストに20回現れることがわかりしかし
require 'nokogiri'
require 'open-uri'
doc = Nokogiri::HTML(open("http://www.bodybuilding.com/store/catalog/new-products.jsp?addFacet=REF_BRAND:BRAND_MET_RX"))
words = doc.inner_text
words.scan(/\w+/)
http://www.bodybuilding.com/store/catalog/new-products.jsp?addFacet=REF_BRAND:BRAND_MET_RXに行くと、 "function"という単語は表示されているテキストのどこにも表示されません。
JavaScriptを無視することはできますか?これを行うにはより良い方法がありますか?
恐ろしい!これはもっとうまくいく、感謝! – akaDanPaul
これは動作しますが、制御フローのためのもので、意図した '&&'演算子とは異なる演算順序を持つため、条件付きで' and'を避けるべきです。また、 '〜='の代わりに使用できる '!〜'演算子があります – Ben