私はHttpClientを使用して特定のWebサイトにアクセスし、その応答はHTML形式です。どのパーサーまたはメソッドをパーサに使用するかHTMLを使用して、応答から必要なものを取得する必要があります。 注:JavaでHttpClientを使用していますHTML Parser for response - Java
2
A
答えて
4
jsoupを使用しています。
jsoup
は、現実世界のHTMLを扱うためのJavaライブラリです。 は、DOM、CSS、およびjqueryのようなメソッドを使用して、データの抽出と操作に非常に便利なAPI、 を提供します。
jsoup
は、WHATWG HTML5仕様を実装しており、最新のブラウザと同じDOMをHTMLとして解釈します( )。
- スクレープやURL、ファイル、または文字列
- 検索や抽出データからHTMLを解析し、DOMのトラバーサルやCSSセレクタを使用すると、
- HTML要素を操作、属性、およびテキスト
- クリーンUSER-
- XSS攻撃を防ぐための安全なホワイトリストに対して提出されたコンテンツ、きちんとHTML
jsoupは、Oすべての品種を扱うために設計されて出力f 野生で見つかったHTML;元の状態から検証して、無効なタグ - スープにする。 jsoup は、分かりやすい構文解析ツリーを作成します。
1
私はhtmlcleanerを試してみます。
HTMLCleanerは、Web上で見つかったHTMLを安全に解析して整形式XMLに変換するためのJavaライブラリです。それは小さく、速く、柔軟で独立しているように設計されています。 HtmlCleanerは、Javaコード、コマンドラインツール、またはAntタスクとして使用できます。構文解析の結果は、DOMやJDomのような標準に簡単に変換でき、あるいは様々な方法(コンパクト、きれいな印刷など)でXML出力にシリアル化された軽量のドキュメントオブジェクトモデルです。
あなたは、XML/HTML tags.Here内のコンテンツを取得するためにhtmlcleanerでXPath
を使用することができますjsoupとJava8とXpath Example
0
素敵
例であるサンプルコード:
// Imports:
...
import java.nio.charset.StandardCharsets;
import org.apache.commons.io.IOUtils;
...
// Execute the GET request:
...
HttpClient clientGet = HttpClientBuilder.create().build();
HttpGet get = new HttpGet(url);
HttpResponse res = clientGet.execute(get);
// Use jsoup to parse the html response:
// E.g. find all links with reference to myapp:
// <a href="myapp">HelloWorldApp</a>
Document doc = Jsoup.parse(IOUtils.toString(res.getEntity().getContent(), StandardCharsets.UTF_8));
Elements links = doc.select("a[href~=myapp]");
for (Element link : links)
String appName = link.html();
...
関連する問題
- 1. C++ Parser/Java for Model
- 2. jQuery TableSorter Parser for Europe
- 3. Haskell Parsec Parser for Encountering [...]
- 4. BeautifulSoup Parser Confusion - HTML
- 5. ForループのMVC3 Razor Parserエラー
- 6. .Net WikiText to HTML Parser
- 7. Java XML Parser問題
- 8. 以下の必要条件を満たすParser、Generator for Java
- 9. Java RTF Parser
- 10. Java DOM Parser XML
- 11. AsyncTask for Jsoup Parserの使い方は?
- 12. PHP - シンプルなHTML Dom Parser
- 13. プレーンなStringメソッドを使用したJava Parser HTML?
- 14. Jericho HTMLパーサーはGoogle App Engine for Javaで動作しますか?
- 15. TDD for IMDB htmlスクレーパー
- 16. SBJSON Parser Memory Leak
- 17. SEO for html single-page site for quasi-html content
- 18. Express.js close response
- 19. Java Collada Parser - XMLプルベースの実装
- 20. java for sqlのパーサー
- 21. HTMLドキュメントジェネレータfor .NET
- 22. WBXML Parser/decoder
- 23. JSON Response with Backbone.js
- 24. rails carrierwave + S3 + json response
- 25. 巨大なJson Parser
- 26. foreachのforループとforループfor java
- 27. Django html for、など
- 28. jQuery ajax/post response encoding
- 29. MVC for Java Desktop App
- 30. Curl - slow response
可能重複[どのHTMLパーサーが最適ですか?](http://stackoverflow.com/questions/2168610/which-html-parser-is-best) –
私は両方をアップしました。 Javaライブラリのhtml解析はひどいです。他の何かが良いでしょう。 – Bill