2009-07-14 11 views

答えて

3

other parsersに切り替える以外は?サイトに一貫したエラーパターンがある場合は、パーサーに渡す前に一連の正規表現を使用して修正することができます。

0

私はより少なくよりフレンドリーなHTMLを解析するために、「ロボ・プロジェクト」(http://lobobrowser.org/cobra.jsp)からコブラレンダラを使用している、それがうまく働いています。それはAPIも非常に使いやすいです。

これが役に立ちます。私が何を意味「のようなサイト」が、MercuryNews.com知らないとほとんどのニュースサイトがRSS interfaceを持って解析する前にそれを片付けるか、いっそのパーサ

0

使用JTidy

+0

JTidyが遅く、2000年以来維持されていないことがわかりました。 –

0

としてそれを使用する

+0

RSSはほとんどのサイトで短いスニペットを提供しています。私は、HTML形式の完全な記事を解析することに興味があります。 –

0

私は試しましたが、jsoup - http://jsoup.org - です。

jqueryのような方法で、実際のHTML解析とDOM操作のためのオープンソースのJavaライブラリです。

関連する問題