単純なウェブサイトのHTMLテキストを印刷したいだけです。印刷しようとすると、実際の改行ではなく、改行文字(\n
)を使って、以下のテキストをそのままの形式で取得します。私は他のもののすべての種類を試してみましたが、いくつかのものを発見したPython 3.xで行ごとにWebページを印刷するには
import urllib.request
page = urllib.request.urlopen('http://www.york.ac.uk/teaching/cws/wws/webpage1.html', data = None)
pageText = page.read()
pageLines = page.readlines()
print(pageLines)
print(pageText)
:
は、これは私のコードです。文字列に変換した後でもpageText
変数のインデックスを作成しようとすると、\n
文字が見つかりません。 \n
とIという新しい行を使って生のテキストを自分自身でコピーしようとすると、\n
文字が実際の新しい行に変換されます。問題は、自分でそれをコピーせずにその結果を得ることができないということです。ここでは、私が何を意味するかを示すために
は、いくつかのHTMLスニペットは、次のとおりです。
生のテキスト:
b'<HMTL>\n<HEAD>\n<TITLE>webpage1</TITLE>\n</HEAD>\n<BODY BGCOLOR="FFFFFf" LINK="006666" ALINK="8B4513" VLINK="006666">\n
私が欲しいもの:
b'<HMTL>
<HEAD>
<TITLE>webpage1</TITLE>
</HEAD>
<BODY BGCOLOR='FFFFFf' LINK='006666' ALINK='8B4513' VLINK='006666'>
私はまた、使用します:
page = str(page)
lines = page.split('\n')
そして驚いたことに何もしなかった。 ただ1行で表示しました。
お願いします。私は私のために働いたものは何も見つけられなかったことに驚いています。フォーラムでさえ、何も働かなかった。
'ラインのページで:プリント(line.decode( 'UTF-8'))'や 'プリント(page.read()UTF-'(デコード。 8 ')) ' –