PythonでHTMLブロックを削除する

PythonでライブラリやHTML文書から要素を抽出する方法があるかどうかを知りたいと思います。たとえば：PythonでHTMLブロックを削除する

<html> 
 
     <head> 
 
      ... 
 
     </head> 
 
     <body> 
 
      <div> 
 
      ... 
 
      </div> 
 
     </body> 
 
</html>

は私が文書からブロックの内容とともに<div></div>タグブロックを削除すると、それはそのようなことでしょう：

私はこの文書を持っています：

<html> 
 
    <head> 
 
    ... 
 
    </head> 
 
    <body> 
 
    </body> 
 
</html>

出典

2016-08-02 JefersonM

あなただけの ''

タグを削除しますかまたはタグとその中の内容はどちらも？ –

タグとその間のコンテンツを削除したいと思います。しかし、内容だけがOKです。 – JefersonM

htmlファイルをxmlとして読み込み、 'div'ノードを削除してみることができます。 https://wiki.python.org/moin/PythonXmlは、* ElementTree * –

あなたは、このためのライブラリを必要としません。組み込みの文字列メソッドを使用するだけです。

def removeOneTag(text, tag): 
    return text[:text.find("<"+tag+">")] + text[text.find("</"+tag+">") + len(tag)+3:]

これにより、最初の開始タグと終了タグの間のすべてが削除されます。ですから、すべてのタグを削除したい場合などにご入力は次に何かのような...

x = """<html> 
    <head> 
     ... 
    </head> 
    <body> 
     <div> 
     ... 
     </div> 
    </body> 
</html>""" 
print(removeOneTag(x, "div"))

だろう...

while(tag in x): 
    x = removeOneTag(x, tag)

出典

2016-08-02 15:30:40 Wso

Cool。私は本当にライブラリが必要ないでしょう。ありがとう！ – JefersonM

あなたの歓迎！私は助けてくれてうれしい！ – Wso

BeautifulSoupなどのHTMLパーサーを使用して<div> DOM要素を選択してみてください。その後、正規表現などを使用して削除することができます。

出典

2016-08-02 15:15:40 Frangipanes

私は個人的には図書館など何も必要ないと感じています。

あなたは単に

ものの（あなたの場合は削除）htmlファイルと、ご希望のHTMLタグにマッチする正規表現を読み、それをするあなたがやりたいためにPythonスクリプトを書くことができ、ライブラリが存在します同様に。また>https://docs.python.org/2/library/htmlparser.html

これを参照してください - -

は、公式ドキュメントを参照してください> Extracting text from HTML file using Python

出典

2016-08-02 15:16:30

PythonでHTMLブロックを削除する

答えて

関連する問題