私はスクリーン・スクレイピング含むHTMLページを:xpathとテキストの一致?
<table border=1 class="searchresult" cellpadding=2>
<tr><th colspan=2>Last search</th></tr>
<tr><th align=left>Search term</th><td>xxxxxx</td></tr>
<tr><th align=left>Result</th><td>yyyyyyyy/td></tr>
</table>
は私が私に「YYYYYYYY」を含むデータセルを取得するXPath式を書きたいです。
.//table[@class='searchresult']//tr/th
私はテーブルのすべてのテーブルヘッダーノードのリストを取得しています。私はそれらをユーザコードで繰り返し、.textが "Results"であるものを見つけ、その上で.getnext()を呼び出してテーブルデータを取得することができます。しかし、より具体的なXPATHパターンを記述することで、これを行うよりクリーンな方法がありますか?それはあるはずのようですが、私はXPATHのまわりでそれほど頭を上げているわけではありません。
問題がある場合は、Pythonでlxmlを使用しています。
よりおそらく、あなたが探しているのXPath文は次のようになります。.//table[@class = '検索結果'] // tr/td [先行兄弟::ノード[1] = "結果"] –