2017-07-11 3 views
0

まず、数日前にコードを覚えるようになったので、助けてくれてありがとう!ウェブサイトからの会社の所在地を見つける

私は会社のURLのリストを持っていて、どこにいるのかを見つけたいと思っています。私がやっていることは、urllib2とBeautifulSoupを使ってURLからすべてのテキストを取得し、次にそのテキストを検索してカリフォルニア、マサチューセッツ、ニューヨークなどを探し出し、それを見つけ出して印刷します私はExcelに入れることができます。これまでのところ私はテキストセットを提供する以下のコードを書いていますが、それを検索する方法、複数のURLを使って行う方法、またはその情報をExcelで判読可能な形式で印刷する方法はわかりません。

ありがとうございました!

import urllib2 
import re 
from bs4 import BeautifulSoup 


links = urllib2.urlopen('http://www.coolcomposites.com/') 
html = links.read() 
soup = BeautifulSoup(html, "html.parser") 
locations = ["Boston", "MA"] 
file_text = soup.get_text() 
print (file_text) 
+0

私の回答は役に立ちましたか?はいの場合は、投票して回答をマークして、質問を閉鎖できるようにしてください。ハッピーコーディング、歓声の仲間:) – eshirima

答えて

0

あなたはlocationsリストを反復処理し、各エントリはfile_textに存在するかどうかを確認する必要があります。

for loc in locations: 
    if loc in file_text: 
    print ("Found location") 
    else: 
    print ("Location not found") 

ウォッチアウト

1.資本

スティックlocationsの1つの表現を持ちます。上記の実装では大文字と小文字が区別されないので、すべてが小文字、上か小文字か、小文字か、小文字かなどの点が混在しないようにしてください。MA != ma != Ma != mA

locationsの小文字を選択すると、file_textも小文字に変換されます。 locations

2.ミッドポイント検出

、あなたはMAが含まれています。これは、MAで構成されているテキストでも検出されます。この問題を克服する方法を考えてみましょう。

関連する問題