は、HTMLテキストを抽出するためにJsoupを使用しますが、私はhtmlページからテキストを抽出するためにウェブクモを書くしようとしている、と私はHTMLを解析するためにJsoupを使用して、以下のような単純なコードの予期しない結果

を返します。は、HTMLテキストを抽出するためにJsoupを使用しますが、私はhtmlページからテキストを抽出するためにウェブクモを書くしようとしている、と私はHTMLを解析するためにJsoupを使用して、以下のような単純なコードの予期しない結果

test2.html

File file = new File("test2.html"); 
Document doc = Jsoup.parse(file, "utf-8"); 
System.out.println(doc.select("body").text());

は以下の通り：

出力は次のようになります。

hellothis is a simple testtest link  <ul> <li>test1</li> <li>test2</li> <li>test3</li> <li>test4</li> <li>test5</li> <li>test6</li> </ul> Jsoupは、すべてのテキストとしてテキストエリア内のコードを取るようです。すべてのHTMLタグを削除するにはどうしたらいいですか？

出典

2016-09-22 Bill

行動はcorrent.Youは再びテキストエリア内のテキストを解析することが可能です。 – fairjm

fairjmが指摘しているように、これは予想される動作です。

あなたはjsoupでtextarea要素を検査した場合、あなたは見つける：

を、それは子ノードがtextnode（doc.select("textarea").first().childNode(0).nodeName()戻り#text）で唯一の子ノード（doc.select("textarea").first().childNodeSize()戻り1）
を持って

解決策

実際にテキストフィールドに意図的にあっても、タグを取り除きたい場合 - double parseコンテンツ（のサイドノート：もちろんダブルパースのコストパフォーマンスですが、それ以外の場合は、テキストは）を対象としている：

File file = new File("test2.html"); 
Document doc = Jsoup.parse(file, "utf-8"); 
System.out.println(Jsoup.parse(doc.select("body").text(), "UTF-8").text());

出力

hellothis is a simple testtest link test1 test2 test3 test4 test5 test6

出典

2016-09-22 19:28:11

ありがとう！できます！ – Bill

答えて

関連する問題