2012-04-13 13 views
0

この些細な質問にお答えください。これは、stackoverflowのビットとピースで利用できます。HTMLダンプを解析する効率的な方法は、文字列の形で見つかりました

私は、WebサイトのHTMLダンプをString形式で持っています。私はそれの特定のタグからテキストを抽出したい。

は、他の方法で、私はそれがフォームのHTMLダンプを返すWebサイト(私はそのために別のサービスを持っているに接続したくないので、私はJsoupを使用していない

Document doc = Jsoup.connect(url).userAgent("Mozilla").get(); 
Elements links = doc.getElementsByTag("cite"); 

を模倣したいですのテキスト)。テキストをHTMLDocumentに変換するのにHTMLEditorKitが見つかりましたが、JsoupやHTMLParserのように使いにくくないか、取得できません。

助けが役に立ちます。

ありがとうございました。

答えて

3

Jsoupを使用していてまだ動作している場合は、引き続き使用する必要があります。

Document doc = Jsoup.parse("<html>..."); 

とする必要があります。

は、以下を参照してください。The API

+1

以上完全に、 'ドキュメントドキュメント= Jsoup.parse(myHtmlString);' – bdares

+0

@bdaresうん、おかげで。 –

+0

ありがとう! :)私はこれを試していないので、とても愚かだった! – instanceOfObject

関連する問題