2016-06-30 4 views
0

フェイスブックページのリンクが異なります。私はこれらのリンクで「エンティティ」を抽出したいと思います。例:フェイスブックページの最後の部分を抽出するurl

http://www.facebook.com/pages/Blue-Mountain-Aromatics/561694213861926 「Blue-Mountain-Aromatics」を抽出します。

http://www.facebook.com/1905BocaJuniors私は '1905BocaJuniors'を抽出したいと思います。

私は 'axebolivia' を抽出したい私は http://www.facebook.com/axebolivia?sk=wall&filter=1で 'supligenjm'

を抽出したい私はhttp://www.fb.com/supligenjm 'において7upGuatemala'

を抽出したいhttps://www.facebook.com/7upGuatemala?ref=br_tf

私は多くのIF-で試してみましたそれ以外の言葉ではそれを打ち消すが、終わりにはスパゲッティコードだけだ。

助けが必要ですか?

+1

既に作成したコードを投稿することはできますか? – mikeyq6

答えて

1
try: 
    from urlparse import urlparse 
except ImportError: 
    from urllib.parse import urlparse 

links = [ 
    'http://www.facebook.com/pages/Blue-Mountain-Aromatics/561694213861926', 
    'http://www.facebook.com/1905BocaJuniors', 
    'https://www.facebook.com/7upGuatemala?ref=br_tf', 
    'http://www.fb.com/supligenjm', 
    'http://www.facebook.com/axebolivia?sk=wall&filter=1', 
] 


for url in links: 
    url = urlparse(url) 
    path = url.path.split('/') 
    entity = path[2] if path[1] == 'pages' else path[1] 
    print(entity) 
+0

完璧!どうもありがとう! –

1
答えRobᵩ [email protected]

ザ・Pythonの3バージョン(と目的球に再書き込み):

from urllib.parse import urlparse 

links = [ 
    'http://www.facebook.com/pages/Blue-Mountain-Aromatics/561694213861926', 
    'http://www.facebook.com/1905BocaJuniors', 
    'https://www.facebook.com/7upGuatemala?ref=br_tf', 
    'http://www.fb.com/supligenjm', 
    'http://www.facebook.com/axebolivia?sk=wall&filter=1', 
] 

def fb_extract(url): 
    url = urlparse(url) 
    path = url.path.split('/') 
    entity = path[2] if path[1] == 'pages' else path[1] 
    return entity 

for url in links: 
    fb_extract(url) 

・ホープ、このことができます!

関連する問題