2012-03-18 16 views
1

私はPythonの初心者です。サイトから情報を読み込んで、テキストボックスにデータとして出力したい(EasyGUIを使用しています)。私はこれがURLのHTMLソースを取得するためにこれを見つけましたが、今はHTML出力で作業したい、私はXMLで作業する方法を知っています。要素や属性を操作する方法はありますか?事前Python:URLからHTMLソースを読み込み、プログラムに日付を取得する

+0

xmlの操作方法が分かっている場合。それは基本的に同じです。 DOMを解析します。 BeautifulSoupまたはhttp://docs.python.org/library/htmlparser.htmlをご覧ください。 –

答えて

3

filehandle = urllib.urlopen('URL') 

for lines in filehandle.readlines(): 
    print lines 

filehandle.close() 

おかげで示唆したように、美しいスープはあなたを助けることができるライブラリです。 http://www.crummy.com/software/BeautifulSoup/bs3/download/2.x/documentation.htmlは、簡単な例を示しています。

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(filehandle.read()) 
titleTag = soup.html.head.title 

Pythonにもパーサーが組み込まれています。 http://docs.python.org/library/htmlparser.html

BeautifulSoupは壊れたHTMLを扱うのに非常に優れています。

0

HTML要素を選択するjQueryの構文に精通している場合は、pyqueryが便利です。

関連する問題