2017-01-11 11 views
1

状況:ウェブサイトから特定のテキストを抽出することが困難です。次のようにイマクロでテキストを抽出する

がimacrosのから変数を抽出するimacrosのウェブサイト(http://wiki.imacros.net/Data_Extraction#Data_Extraction_and_Web_Scraping)上のテンプレートの例である:

TAG POS=1 TYPE=SPAN ATTR=CLASS:bdytxt&&TXT:* EXTRACT=HTM 

ただし以下のHTMLコードで、特定の要素<a href="..." target="_blank">text1</a>でのクラスを持っていませんATTRセクションで指定します。私は、特に以下の例からテキスト1を抽出しようとしています:

//This code is within an html page 
<div class="class1"> 
    <img class="class2" src="..."> 
    <strong> 
    <a href="..." target="_blank">text1</a> 
    </strong> 
    <br> 
    <small>text2</small> 
    <small class="class3"> 
    <br> 
    <em>text3:</em> 
    <span> 
     <a href="..." class="class4"> 
     <small style="color: #aaa; font-size: 80%">text4</small> 
     text5 
     </a> 
    </span> 
    <br> 
    <em>text6</em> 
    <a href="..." class="class5">text7</a>, 
    <a href="..." class="class5">text8</a> 
    </small> 
</div> 

私がしようとしているもの:

私が知っている私は、「実験イベント録画モード」を使用して記録し、具体的にクリックしたとき私はセレクタがEXTRにうまくいくかどうかを確認するためにテストさ

EVENT TYPE=CLICK SELECTOR="HTML>BODY>DIV:nth-of-type(5)>DIV>STRONG>A" BUTTON=0 

:私は、次のコードを取得テキスト1 ACTコードは次のようになります:

TAG POS=1 TYPE=SPAN SELECTOR="HTML>BODY>DIV:nth-of-type(5)>DIV>STRONG>A" EXTRACT=TXT 

あなたが想像しているように、それはしませんでした。

質問:私は上記の状況からテキスト1を抽出する方法は誰もが知っていますか?

答えて

0

このテキストを抽出する方法はいくつかあります。たとえば、次のように

TAG POS=1 TYPE=IMG ATTR=CLASS:"class2" 
TAG POS=R1 TYPE=A ATTR=* EXTRACT=TXT 

それとも、 'Chromeのimacrosの' を使用している場合、ここでのセレクタの助けを借りて解決策があります:

TAG SELECTOR="HTML>BODY>DIV:nth-of-type(5)>DIV>STRONG>A" EXTRACT=TXT 
+0

おかげShugar!このソリューションは素晴らしい結果を出しました。ちなみに – iwuvit

+0

私はここに投稿したimacrosとは別の疑問を持っています:http://stackoverflow.com/questions/41636311/imacros-find-how-much-a-scrollbar-is-scrolledあなたが私の救い主になることをもう一度お試しください – iwuvit

+0

'iMacros' v.8.9.7を使用する場合、Firefoxでマルチプロセス機能を無効にする必要があることを追加したいだけです。 – Shugar