2017-02-07 1 views
1

現在、特定のWebサイトに対してhttps://crt.shを照会し、結果をスクラブしてサブドメインを検索するSSL証明書列挙ツールに取り組んでいます。私は、結果ページをHTMLとして取得するためにMechanizeを使用しており、特定のテーブルデータの応答を解析する必要があります。以下はその結果特定のHTMLの構文解析​​Nokogiriのタグ

<tr> 
    <td style="text-align:center"><a href="?id=47689622">47689622</a></td> 
    <td style="text-align:center">2016-10-22</td> 
    <td style="text-align:center">2016-05-21</td> 
    <td>*.meta.stackoverflow.com</td> 
    <td><a style="white-space:normal" href="?caid=1397">C=US, O=DigiCert Inc, OU=www.digicert.com, CN=DigiCert SHA2 High Assurance Server CA</a></td> 
</tr> 

私は明らかにそれに付着しないIDやクラスを持っていない唯一の第二の最後のタグをプルする方法を必要とする一列の一例です。誰かが似たような経験をしていますか?もしそうなら、どんなヒントもありがとうございます。私がコントローラからファイルを取得する方法は次のとおりです。

domain = params[:domain_name] 
@result = "Retrieving domain information from crt.sh\nSee https://crt.sh/?q=%25#{domain} to validate manually\n\n" 
host = ENV["https_proxy"][8..-1].split(":")[0]  
port = ENV["https_proxy"].split(":")[2].chomp("/") 

agent = Mechanize.new 
agent.user_agent = 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)' 
agent.set_proxy(host, port) 
html_doc = Nokogiri::HTML(agent.get("https://crt.sh/?q=%25#{domain}").body, 'UTF-8') 

私はちょうどヶ月前にはRuby on Railsを学び始め、今日以前まで鋸山を必要としていないように私は、鋸山で多くの経験を持っていません。

答えて