2012-03-13 20 views
0

JavaとSAXを使用して検索エンジンからRSS検索機能を実装しています。ただし、検索結果の一部が整形されていない、つまり一部の項目の<title>タグの本文に&amp;などの代わりに&文字が含まれています(例:Starsky & Hutchなど)。java saxの解析がうまくいかないxml

RSSを解析すると、org.apache.harmony.xml.ExpatParser&ParseExceptionが得られ、検索全体が中断して何も返されません。

FirefoxのRSSリーダーのように、パーサーがこれらのエラーを回避するようにしたいと思います。この問題を修正してRSSフィードを解析する可能性は何ですか?

+0

RSSフィードパーサーはどうですか? http://stackoverflow.com/search?q=%5Bjava%5D+rss+parser –

+0

整形式でない場合は、RSSフィードではありません。小柄な点ですが、重要な点です。 – skaffman

+0

@skaffman私はあなたに同意します。しかし、これは私にその餌を放棄すること以外は選択肢を与えない。あまりにも悪いですが、それは彼らの過ちです – Gabriel

答えて

1

SAX実装は、通常、エラーを検出し例外をスローするように設計されており、これを回避する標準的な方法はありません。私が考えることのできる最も合理的なことは、SAXにストリーミングする前に、迷いのようなエラー(例えば、&の迷子)を修正しようとすることです。

関連する問題