WebサイトのHTMLをJAVAで解析する

単純なWebサイトを解析し、そのWebサイトから情報を取得します。WebサイトのHTMLをJAVAで解析する

私はDocumentBuilderFactoryでXMLファイルを解析するために使用しましたが、私はhtmlファイルに対して同じことを試みましたが、常に無限ループに陥りました。

何が問題なのですか？または、与えられたhtmlタグのWebサイトからデータを削る簡単な方法はありますか？

2012-01-30 CanCeylan

まず、ファイルの代わりに文字列を使用できます。どこが無限ループに入っていますか？たぶんあなたがその問題を抱えているように見えないURLからの入力ストリームのため。 –

これを実行する方がずっと簡単です。 JSoupを使用することをおすすめします。

Elements body = doc.select("body");

それとも、すべてのリンクしたい場合：

Elements links = doc.select("body a");

をあなたはもはや接続を取得する必要がありますかJSoupを使用すると、

Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 
Elements newsHeadlines = doc.select("#mp-itn b a");

それとも、体をしたいなかったかのようなことを行うことができますストリームを処理します。シンプル。 jQueryを使用したことがあるなら、それは非常に似ています。

2012-01-30 22:14:14

まず、ありがとうございます！しかし、＃mp-itn b aとは何ですか？ – CanCeylan

＃mp-itnは 'id =" mp-itn "' –

のコンテナです。編集を参照してください。 CSSセレクターがどのように機能するかを理解することが本当に役に立ちます。 –

HTMLは常に有効な形式のXMLではありません。 XMLパーサの代わりに特別なHTMLパーサを試してみてください。使用可能なさまざまなものがいくつかあります：確かに

2012-01-30 22:16:33 Jan

JSoupが答えです。 ;-)

2013-05-08 13:31:07

答えて