私は、別のプログラムで使用されるいくつかの特別なタグでマークアップしたサンプルHTMLを持っています。 <START:organization>..<END>
要素に注意する必要があります。Nokogiriのカスタム要素に名前空間を保存するHTML
<html>
<head/>
<body>
<ul>
<li> <START:organization> Advanced Integrated Pest Management <END> </li>
<li> <START:organization> American Bakers Association <END> </li>
</ul>
</body>
</html>
私は簡単に<script>
のような無関係なタグを削除する前処理にHTMLを鋸山を使用していました。問題は、鋸山は<organization>
に<START:organization>
要素を変更していることである
module Nokogiri
module HTML
class Document
def prepare_html
xpath("//script").remove
to_html.remove_new_lines
end
end
end
end
:私は鋸山Documentクラスに次の拡張機能を作成しました。
私はカスタムマークアップタグを維持するためにHTMLを保存できますか?