2011-07-08 12 views
0

lxmlでネストされたフォーム要素を持ついくつかのhtmlページをスクラップしたいと思います。これらのページでBeautifulSoupのチョークさえ、私が見つけた唯一のパーサーは、どのタグがネストされているかどうかを知らないMinimalSoupです。lxmlでネストされたフォームタグを処理する方法

lxmlにはネストされたフォームタグについて気にしないパーサーがありますか? 他の提案はありますか?

もし私がMinimalSoupを使用し続ける必要があれば。

+1

あなたが掻き取ろうとしているページへのリンクを提供できますか?問題が発生しているデータは何ですか? – mac

+0

ページにログインする必要がありますので、私はリンクを提供できません – cerberos

答えて

1

lxml.etree.HTMLParserはどうですか?それは比較的うまくいくはずですよね?

import urllib2 
import lxml.etree as etree 
page = urllib2.urlopen(url) 
parser = etree.HTMLParser() 
tree = etree.parse(page,parser) 

あなたのツリーがあります。

+0

、ありがとうございます。 – cerberos

+0

あなたの歓迎、ありがとう –

関連する問題