Pythonの画像スクレイピングプログラムが意図したとおりに機能しない

私のコードは空の文字列を返すだけです。理由はわかりません。Pythonの画像スクレイピングプログラムが意図したとおりに機能しない

import urllib2 

def getImage(url): 
    page = urllib2.urlopen(url) 
    page = page.read() #Gives HTML to parse 

    start = page.find('<a img=') 
    end = page.find('>', start) 

    img = page[start:end] 

return img

それだけで最初に見つかったイメージを返しますので、それは非常に良好な画像スクレーパーではありません。それは、私の主な目標は今、単にイメージを見つけることができるということです。私はできない。ルビーでこする画面上

出典

2012-10-17 user1753520

記事： http://www.igvita.com/2007/02/04/ruby-screen-scraper-in-60-seconds/ その、画像が、その良い記事をこすると役立つかもしれません。

出典

2012-10-17 14:57:12

このように画像情報を抽出することはお勧めできません。より良いオプションは、新しい何かを学ぶためにあなたの知識とあなたの意欲に応じて、severalyあります

http://scrapy.org/は、Webページからデータを抽出するための非常に良いフレームワークです。あなたが初心者のように見えるので、ちょっと残忍かもしれません。
は、情報を抽出する正規表現を学ぼう：http://docs.python.org/library/re.htmlとLearning Regular Expressions
利用http://www.crummy.com/software/BeautifulSoup/page.read()の結果からデータを解析します。

出典

2012-10-17 14:59:57 Achim

は便利なスキルですが、それはいかなる方法でこするウェブのための「より良いオプション」ではありません。 – root

あなたが画像を検索しようとしていることを

あなたの問題がある...あなたは、このためのライブラリを使用する必要があり、いくつかはそこにありますが、あなたは私たちを示したコードを変更することによって、あなたの質問に答えるために画像は<a ...>タグを使用しません。彼らは<img ...>タグを使用します。次に例を示します。

def getImage(url): 
    page = urllib2.urlopen(url) 
    page = page.read() #Gives HTML to parse 

    start = page.find('<img ') 
    end = page.find('>', start) 

    img = page[start:end+1] 
    return img

出典

2012-10-17 15:00:10 bohney

私はちょうどhttp://yahoo.comで私の提案された 'getImage'関数を試して、これを得ました：' Yahoo! UK ' – bohney

は、あなたのHTMLを解析するためにBeautifulSoupの使用を検討してください：

from BeautifulSoup import BeautifulSoup 
import urllib 
url = 'http://www.google.com' 
html = urllib.urlopen(url).read() 
soup = BeautifulSoup(html) 
for img in soup.findAll('img'): 
    print img['src']

出典

2012-10-17 15:04:10 tehmisvh

一部の命令あなたは何をすべき

<img src="smiley.gif" alt="Smiley face" height="42" width="42">

はそうのようなstart = page.find('<img ')にごstart = page.find('<a img=')行を変更しています助けになるかもしれない：

Google Chromeを使用します。画像の上にマウスを置いて右クリックします。「要素の検査」を選択します。それはあなたが画像の近くにhtmlを見ることができるセクションを開きます。

利用美しいスープは、HTML解析する：正規表現を使用する方法を知って

from BeautifulSoup import BeautifulSoup 

request = urllib2.Request(url) 
response = urllib2.urlopen(request) 
html = response.read() 
soap = BeautifulSoap(html) 
imgs = soup.findAll("img") 
items = [] 
for img in imgs: 
    print img['src'] #print the image location 
    items.append(img['src']) #store the locations for downloading later

出典

2012-10-17 15:08:30 martincho

Pythonの画像スクレイピングプログラムが意図したとおりに機能しない

答えて

関連する問題