私がXmlSlurperで汚れたHTMLページを解析していますを使用するときに問題のある行を見つけ、私は次のエラーを取得する方法:今XmlSlurper
ERROR org.xml.sax.SAXParseException: Element type "scr" must be followed by either attribute specifications, ">" or "/>".
at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source)
at org.apache.xerces.jaxp.SAXParserImpl$JAXPSAXParser.parse(Unknown Source)
...
[Fatal Error] :1157:22: Element type "scr" must be followed by either attribute specifications, ">" or "/>".
を、私は私はそれをHTMLを供給し、その前にそれを印刷しています。私がそれを開き、エラー1157に記載されている行に移動しようとすると、そこには「src」はありません(しかし、ファイルにはこのような文字列が何百もあります)。だから、私はいくつかの追加のものが挿入されている(おそらく<script>
またはそのようなもの)行番号を変更すると思います。
問題のある行やhtmlを正確に見つける良い方法はありますか?
「scr」というエラーは、「src」が見つからないということです。それはタイプミスですか、あるいは間違ったことを文書で検索していますか? –
NekoHTMLが見つかるまでTagSoupを使いました。私は正確な理由を覚えていませんが、TagSoupは機能していませんでした。ここでNekoHTMLを使用する方法の例を見ることができます - http://stackoverflow.com/questions/9260461/gpath-to-find-if-a-table-header-contains-a-matching-string – Gaurav