私はNekoHtmlを使用しています。それはmercurynews.comのようなサイトからHTMLへの解析に失敗しました。問題の解決方法は?不正な形式のHTMLをJavaのDOMに処理する/解析する方法は?
0
A
答えて
3
other parsersに切り替える以外は?サイトに一貫したエラーパターンがある場合は、パーサーに渡す前に一連の正規表現を使用して修正することができます。
5
あなたはタグスープを考えましたか?
0
あなたはSwingのHTMLパーサを使用して検討することができます。
0
私はより少なくよりフレンドリーなHTMLを解析するために、「ロボ・プロジェクト」(http://lobobrowser.org/cobra.jsp)からコブラレンダラを使用している、それがうまく働いています。それはAPIも非常に使いやすいです。
これが役に立ちます。私が何を意味「のようなサイト」が、MercuryNews.com知らないとほとんどのニュースサイトがRSS interfaceを持って解析する前にそれを片付けるか、いっそのパーサ
0
使用JTidy。
0
としてそれを使用する
+0
RSSはほとんどのサイトで短いスニペットを提供しています。私は、HTML形式の完全な記事を解析することに興味があります。 –
0
私は試しましたが、jsoup - http://jsoup.org - です。
jqueryのような方法で、実際のHTML解析とDOM操作のためのオープンソースのJavaライブラリです。
関連する問題
- 1. Pythonで不正形式のHTMLを解析する方法
- 2. 不正な形式のXMLパーツを解析/無視する方法は?
- 3. Javascriptで不正な形式のJSONを解析する
- 4. html DOMの実行形式を解析する
- 5. PHPで不正な形式のJSONを処理する
- 6. java日付の形式を解析する方法は?
- 7. Roku - 不正な形式のXMLを解析しない
- 8. 正しい形式のHTMLを解析する
- 9. 不正な形式のbrタグでの解析解析の問題
- 10. dom、html形式のタグを使用したrss解析
- 11. 解析不正な形式の文字列
- 12. Javaの不正な形式の開始
- 13. BeautifulSoup(bs4):不正な形式のHTMLでエンディングタグを無視する方法
- 14. HTML DOMテーブルを解析するPHP DOM
- 15. DOMで整形されていないHTMLを処理する
- 16. JavaのJava TDate形式を解析する
- 17. .NET3.5で不正な形式のXMLを処理しています
- 18. JSONKitのデータを次の形式で解析する方法
- 19. robots.txt:不適切な形の不許可行の処理方法
- 20. 構造化された形式を解析する方法は?
- 21. この日付形式を解析する方法
- 22. 不正なXMLを解析する
- 23. 不正なCSVを解析する
- 24. ログファイルをCSV形式に解析する
- 25. DOMを解析するDOM
- 26. XSSの不正な形式のタグを防ぐ方法
- 27. 非標準形式から標準形式をJavaで解析する
- 28. バイナリツリー形式でpyparsingで複雑な論理式を構文解析する
- 29. PHPでeval関数の解析エラーを処理する方法
- 30. 不正なJSONデータ形式
JTidyが遅く、2000年以来維持されていないことがわかりました。 –