lxmlでネストされたフォームタグを処理する方法

lxmlでネストされたフォーム要素を持ついくつかのhtmlページをスクラップしたいと思います。これらのページでBeautifulSoupのチョークさえ、私が見つけた唯一のパーサーは、どのタグがネストされているかどうかを知らないMinimalSoupです。lxmlでネストされたフォームタグを処理する方法

lxmlにはネストされたフォームタグについて気にしないパーサーがありますか？他の提案はありますか？

もし私がMinimalSoupを使用し続ける必要があれば。

出典

2011-07-08 cerberos

あなたが掻き取ろうとしているページへのリンクを提供できますか？問題が発生しているデータは何ですか？ – mac

ページにログインする必要がありますので、私はリンクを提供できません – cerberos

lxml.etree.HTMLParserはどうですか？それは比較的うまくいくはずですよね？

import urllib2 
import lxml.etree as etree 
page = urllib2.urlopen(url) 
parser = etree.HTMLParser() 
tree = etree.parse(page,parser)

あなたのツリーがあります。

出典

2011-08-01 21:54:06

、ありがとうございます。 – cerberos

あなたの歓迎、ありがとう –

lxmlでネストされたフォームタグを処理する方法

答えて

関連する問題