単純なWebサイトを解析し、そのWebサイトから情報を取得します。WebサイトのHTMLをJAVAで解析する
私はDocumentBuilderFactoryでXMLファイルを解析するために使用しましたが、私はhtmlファイルに対して同じことを試みましたが、常に無限ループに陥りました。
何が問題なのですか?または、与えられたhtmlタグのWebサイトからデータを削る簡単な方法はありますか?
単純なWebサイトを解析し、そのWebサイトから情報を取得します。WebサイトのHTMLをJAVAで解析する
私はDocumentBuilderFactoryでXMLファイルを解析するために使用しましたが、私はhtmlファイルに対して同じことを試みましたが、常に無限ループに陥りました。
何が問題なのですか?または、与えられたhtmlタグのWebサイトからデータを削る簡単な方法はありますか?
これを実行する方がずっと簡単です。 JSoupを使用することをおすすめします。
Elements body = doc.select("body");
それとも、すべてのリンクしたい場合:
Elements links = doc.select("body a");
をあなたはもはや接続を取得する必要がありますかJSoupを使用すると、
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
それとも、体をしたいなかったかのようなことを行うことができますストリームを処理します。シンプル。 jQueryを使用したことがあるなら、それは非常に似ています。
まず、ありがとうございます!しかし、#mp-itn b aとは何ですか? – CanCeylan
#mp-itnは 'id =" mp-itn "' –
のコンテナです。編集を参照してください。 CSSセレクターがどのように機能するかを理解することが本当に役に立ちます。 –
HTMLは常に有効な形式のXMLではありません。 XMLパーサの代わりに特別なHTMLパーサを試してみてください。使用可能なさまざまなものがいくつかあります:確かに
JSoupが答えです。 ;-)
まず、ファイルの代わりに文字列を使用できます。どこが無限ループに入っていますか?たぶんあなたがその問題を抱えているように見えないURLからの入力ストリームのため。 –