HTMLコンテンツをリストに表示

-1

HTMLページからすべてのコンテンツを読み込み、これをリストに保存します。HTMLコンテンツをリストに表示

あなたのplsは、Python

例については

のオプションをお勧めでした：

URL：

https://en.wikipedia.org/wiki/Chancellor_of_Germanyは、このページのすべてのコンテンツを取得し、一覧でこれを保管し

ドイツの首相ドイツの政府長。ドイツ語の公式タイトルはBundeskanzler（in）（文字通り、連邦首相）であり、Kanzler（in）に短縮されることもある。初期の中世からの用語は、ラテン語の用語である。ドイツの政治において、首相は他の多くの国の首相と同等です。ドイツ語には、首相、プレミア・ミスター、大臣の2つの同等の翻訳があります。 Premierministerは通常、外国の政府（例えば英国）の首脳を指すが、Ministerpräsidentは、ほとんどのドイツの州の政府首脳を指すこともある。現在の首相はアンジェラ・メルケル（Angela Merkel）です。彼女は最初の女性首相であり、ドイツ語ではBundeskanzlerinとして知られている（その特定の言葉はメルケルの前に正式に使われたことはないが、文法的に規則的な女性首相を表す名詞の形成であり、 Bundeskanzler "）。

出典

2017-09-25 Puttur Kamath

それは簡単です：

import requests 
import bs4 

response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany') 
soup = bs4.BeautifulSoup(response.text, "html.parser") 
txt = soup.find("div", {"id": "mw-content-text"}) 
para = txt.findAll('p') 

for item in para: 
    print item.text

あなたはこれを印刷したり、リストまたは何か他のものにそれを保存することができます。また、nltkを文章にしてtokenizeとすることもできます。

出典

2017-09-25 20:56:29 RaminNietzsche

HTMLコンテンツをリストに表示

答えて

関連する問題