サイトを削って段落に分割しようとしています。私は非常に明確に、いくつかの段落デリミタが適切に分割されていないという擦り傷のあるテキストを見て見ることができます。問題を再現するためのコードは下記を参照してください!BeautifulSoupパーサーがタグで正しく分割されていません
from bs4 import BeautifulSoup
import requests
link = "http://www.presidency.ucsb.edu/ws/index.php?pid=111395"
response = requests.get(link)
soup = BeautifulSoup(response.content, 'html.parser')
paras = soup.findAll('p')
# Note that in printing the below, there are still a lot of "<p>" in that paragraph :(
print paras[614]
私は他のパーサーを使ってみました - 同様の問題。
は(lxmlのかresponse.textのいずれかを使用して)残念ながら、動作しません。提案をありがとうtho! – Craig