2016-12-05 4 views
0

lxmlを使用してブログサイトからコメントを拝見しています。完全なHTML段落テキストを収集する必要がありますが、<br />制限の結果

私が収集したいが、結果が返さ段落の前の最初のインスタンスにテキストに切り捨てられ見つけた

<br /> 

ここでは、HTMLのスニップが...

        <p>Great Post.<br /> 
Really Helpful for us.<br /> 
thank you</p> 

です

root[1][2][0][0][0][6][0][0][0][1][3].text 

返されるものです::ここでの目標パラグラフに私のパスです

>>> 'Great Post.' 

この段落の全文をどのように得ることができますか?

+0

さらに多くのHTMLを投稿する必要があります。さらに、それらの要素にアクセスする方法は危険です。インデックスの巨大なリストを考えると、DOMの小さな変化は物事を投げ捨てるでしょう。 –

+0

HTML全体は次の場所にあります。[リンク](表示元:http://www.worldofwanderlust.com/access-money-overseas-need-board-plane/) –

答えて

1

最初に、lxml.htmlを使用してHTMLを解析する必要があります(lxml.etreeではありません)。次に、要素を見つけたら.text_content()メソッドを使用して、子テキストを含む要素の完全な "テキスト"を取得します。

+0

lxmlを使用していただきありがとうございます。 html-チャームのように働いた –

関連する問題