2011-01-15 10 views
0

私はを使用して、htmlドキュメントを整理して処理しています。SAX&Cyber​​nekoを使用したXMLコメントの処理 - DOMの順

オリジナルのhtml文書で発生するすべてのコメントを処理できる必要があります。私はそうのようなコメントを処理するcybernekoのSAXパーサーを構成した

:私はDOMイベントのために午前と同じ消費者を使用して

parser.setProperty("http://xml.org/sax/properties/lexical-handler", consumer); 

...。

私はコメントのそれぞれのコールバックを取得:

@Override 
public void comment(char[] arg0, int arg1, int arg2) throws SAXException { 
    System.out.println("COMMENT::: "+new String(arg0, arg1, arg2)); 
} 

私が持っている問題は、すべてのコメントは、DOMの文脈の外に、最初に処理されていることです。すなわち、私は私が好きな何すべてのコメント前文書ヘッド、ボディなどのコールバック....

を取得するコメントコールバックは、彼らがDOMで発生するために発生するためです。

編集:私は実際にやろうとしていることなど、元のHTMLでIEのための指示、通過されています。彼らはすべて廃棄された瞬間で

<!--[if lte IE 6]><body class="news ie"><![endif]--> 

、私はそれらを含める必要がクリーンアップされたHTMLドキュメントに

答えて

0

あなたのコードをもっと見せてくれれば分かりやすいでしょう。

cyberneckoに問題がある場合は、TagSoupなどの別のパーサーを試すことができます。

+0

問題は、コメントを出力していないXSLのすべてをラップしていたことでした。 – Joel

関連する問題