Nokogiri/xpathを使用して、巨大なHTMLファイルからテキストを取り出す

私はウェブサイトを削って、HTMLから特定の要素を取り出そうとしています。私はこする午前のサイトでは、その中の情報の束とスクリプトタグは、しかし、私が興味を持って、これらのタグ内の1つの部分があるがある行は、基本的には次のようになります。いくつかとNokogiri/xpathを使用して、巨大なHTMLファイルからテキストを取り出す

'image':'http://ut5.example.com/t/231/3_b_643435.jpg',

それの上と下のもの。今、これは各ページソースで異なるですが、明らかにドメインと、イメージを格納するサブフォルダのいくつかは異なります。

この特定の行のソースを調べて、URLだけを切り捨てるにはどうすればよいですか？私はURLが動的なので、私が感じる正規表現を使用する必要があります。

"gsub"メソッドは、/ regex /を使用できるため、検索したいものと似たような処理をします。しかし、私は何かを置き換えることを望んでいない、私はちょうど/ regex /を使用してソースコード内のURLを見つけてそれをコピーしたい。

出典

2012-02-20 user1015523

と思い探しているものであるあなたは、結果することになっているものの例を置くことはできますか？それは「イメージ」ですか？「イメージ.jpg」ですか？ – elclanrs

私はURLを抜き出したいと思っています。 "gsub"メソッドは、やりたいことをやりたい、/regex/を検索します。何も置き換えたくないので、新しい文字列などにコピーしたいだけです。 – user1015523

上記の例から '3_b_643435.jpg'を抽出して変数に入れるだけですか？ – elclanrs