私はウェブサイトから情報を解析するために切り抜きを使用しようとしていますが、私は主にHTMLタグを使用してさまざまなテキストを識別します。HTMLタグを使用しないで問題の掘り下げウェブサイトを切り分ける
たとえば、以下はHTMLタグを使用して分離することは困難です(プログラムはこのサイトでは機能しません)。著者、タイトルなどをどのように分けることができますか?
import urllib
from pyparsing import *
paraStart,paraEnd = makeHTMLTags("p")
# read HTML from a web page
serverListPage = urllib.urlopen("http://www.cs.cf.ac.uk/contactsandpeople/allpubs.php?emailname=C.L.Mumford")
htmlText = serverListPage.read()
serverListPage.close()
para = paraStart + SkipTo(paraEnd).setResultsName("body") + paraEnd
for tokens,start,end in para.scanString(htmlText):
print tokens.body,'->',tokens.href
私はpyparsingに比較的新しいですし、この例のための図書&ウェブを通じて見てきました。どんな助けでも大歓迎です。ありがとう。
編集:私はプログラムを実行すると、私は次を得る: 私は(「LI」)に(「P」)から検索する変更した場合、しかし、ナビゲーションメニューに
をスキップコンテンツ へスキップするために別のサイトでは、ブロック内の情報をプルします。
コメントを編集して、そのクエリから返されるテキストのサンプルを含めることができますか? – PaulMcG