2016-09-04 6 views
1

私はWordPressにXPathを使って他のウェブサイトからのデータを取得するWeb Scrapperツール(PHPはバックグラウンド)を持っています。XPath - HTMLタグを含むデータを取得する

私はすべての必要なデータを取得する問題に直面していますが、これらのデータはHTMLタグから削除されます。私が使用している

のXPath式:

//table/tbody/tr[td//text()[contains(., 'FFF')]] 

データ私が使用している:私は取得しています

<table id="myTable"> 
      <thead> 
       <tr> 
        <th>#</th> 
        <th>First</th> 
        <th>Second</th> 
        <th>G</th> 
        <th>Z</th> 
        <th>C</th> 
       </tr> 
      </thead> 
      <tbody> 
        <tr> 
         <td>1.</td> 
         <td>D</td> 
         <td>FFF</td> 
         <td class="txt-c">6</td> 
         <td class="txt-c">0</td> 
         <td class="txt-c">0</td> 
        </tr> 
        <tr> 
         <td>2.</td> 
         <td>C</td> 
         <td>YYY</td> 
         <td class="txt-c">4</td> 
         <td class="txt-c">1</td> 
         <td class="txt-c">0</td> 
        </tr> 
        <tr> 
         <td>3.</td> 
         <td>B</td> 
         <td>ZZZ</td> 
         <td class="txt-c">4</td> 
         <td class="txt-c">0</td> 
         <td class="txt-c">0</td> 
        </tr> 
        <tr> 
         <td>4.</td> 
         <td>A</td> 
         <td>FFF</td> 
         <td class="txt-c">3</td> 
         <td class="txt-c">0</td> 
         <td class="txt-c">0</td> 
        </tr> 
       </tbody> 
      </table> 

結果:私は必要

1. D FFF 6 0 0 4. A FFF 3 0 0 

結果:

<tr> 
         <td>1.</td> 
         <td>D</td> 
         <td>FFF</td> 
         <td class="txt-c">6</td> 
         <td class="txt-c">0</td> 
         <td class="txt-c">0</td> 
        </tr> 

<tr> 
         <td>4.</td> 
         <td>A</td> 
         <td>FFF</td> 
         <td class="txt-c">3</td> 
         <td class="txt-c">0</td> 
         <td class="txt-c">0</td> 
        </tr> 
私はワードプレス(URLは変更)で使用してい https://wordpress.org/plugins/wp-web-scrapper/

正確なショート::私が使用している10

ツール

[wpws url='https://myweb.comm' query='%2F%2Ftable%2Ftbody%2Ftr%5Btd%2F%2Ftext()%5Bcontains(.%2C%20%27FFF%27)%5D%5D' output='html' query_type='xpath' querydecode='1'] 

は私が必要なのは、同じフィルタHTMLタグテーブルです。

ありがとうございました。

+0

使用しているプログラミング言語やツールを追加してください。関連するすべてのコードや手順を追加することで、誰もが問題を再現できることを確認してください。また、結果がどのようなものであるかはっきりとは分かりません。 –

+0

結果として実際にテキストを取得した場合、XPath式は問題ありません。結果を間違って扱うのはWordpress Scraperのプラグインです。実際のHTMLを取得するのか、常にテキストを抽出するのかを定義するプラグインはありませんか?値の1つが「テキスト」である場合、「出力」と呼ばれるパラメータがあるようです。 –

+0

こんにちはマティアス、あなたの答えに感謝します。はい、出力をhtmlとして設定できます(デフォルトで設定されていますが、出力パラメータで設定しようとしましたが)結果は同じです。私は別のXPath式でこのプラグインを使用しています。その結果は問題ありません。私がこの問題を抱えるのは初めてです。 – user2160408

答えて

0

ありがとうございました。

私はついにそれを稼働させました。プラグイン自体は正常に動作しています。ショートコードが使用されているWordpressのポストではテーブルペアのタグが欠けていただけでした。

ソリューション:

<table> 
[wpws url='https://yoururl.com' query='your query' output='html' query_type='xpath'] 
</table> 
関連する問題