2017-09-25 2 views
-1

HTMLページからすべてのコンテンツを読み込み、これをリストに保存します。HTMLコンテンツをリストに表示

あなたのplsは、Python

例については

のオプションをお勧めでした:

URL:

https://en.wikipedia.org/wiki/Chancellor_of_Germanyは、このページのすべてのコンテンツを取得し、一覧でこれを保管し

ドイツの首相ドイツの政府長。ドイツ語の公式タイトルはBundeskanzler(in)(文字通り、連邦首相)であり、Kanzler(in)に短縮されることもある。初期の中世からの用語は、ラテン語の用語である。 ドイツの政治において、首相は他の多くの国の首相と同等です。ドイツ語には、首相、プレミア・ミスター、大臣の2つの同等の翻訳があります。 Premierministerは通常、外国の政府(例えば英国)の首脳を指すが、Ministerpräsidentは、ほとんどのドイツの州の政府首脳を指すこともある。 現在の首相はアンジェラ・メルケル(Angela Merkel)です。彼女は最初の女性首相であり、ドイツ語ではBundeskanzlerinとして知られている(その特定の言葉はメルケルの前に正式に使われたことはないが、文法的に規則的な女性首相を表す名詞の形成であり、 Bundeskanzler ")。

答えて

0

それは簡単です:

import requests 
import bs4 

response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany') 
soup = bs4.BeautifulSoup(response.text, "html.parser") 
txt = soup.find("div", {"id": "mw-content-text"}) 
para = txt.findAll('p') 

for item in para: 
    print item.text 

あなたはこれを印刷したり、リストまたは何か他のものにそれを保存することができます。また、nltkを文章にしてtokenizeとすることもできます。

関連する問題