2016-11-19 1 views
0

特定のCSSセレクタに一致するタグを削除できるように、HTMLファイルを処理する簡単な方法はありますか?私の動機は、pandocは、私の見解ではあまりにも冗長で、<span class="math inline"> ... </span>という数値計算式を囲むHTML出力を生成するということです。一般に...で十分です。ディスプレイの数学では、入力と出力に改行がある傾向がありますので、grepなどの専用ツールを使用してください。目標は帯域幅の使用量を減らすことであり、クライアント側では何も起こりません。CSSセレクタと一致するタグ(コンテンツではない)を簡単に削除できますか?

+2

?それはサーバー側かクライアント側ですか?これまでに何か試しましたか? –

+0

@NeriBarakatこれは言語に依存しない質問ですが、実際にはこれに適したツールがあるかどうかが大半です(おそらく 'lxml'ですか?)。一時的にEOLを未使用の文字に変更した後、 'grep'を使って' \([^ <] [^ <]*\) ' –

+1

pandocは、スパンタグを挿入して、mathjaxのようなjavascriptライブラリが適切に数式を表示できるようにします...もちろん、あなたのhtml処理ツールでそれらを削除することもできます。例えばnokogiriを使用している場合Ruby ... – mb21

答えて

1

Pandocはスパンタグを挿入して、mathjaxなどのjavascriptライブラリが適切に数式を表示できるようにします。もちろん、html処理ツールで削除することもできます。あなたはルビーを使用している場合鋸山は、removespans.rbにこのようなものを置く:

require 'nokogiri' 

doc = Nokogiri::HTML(File.open("file.html")) 
doc.search('span').remove 
puts doc 

は、実行:あなたが使用している言語

pandoc -s -o file.html input.md 
ruby removespans.rb > output.html 
関連する問題