2012-04-12 7 views
0

私はいくつかのJava HtmlParser(Jericho、HtmlCLeaner、...)を調べましたが、ページを取得するときにhtmlフレームタグを実際のソースコードに置き換える機能は見つかりませんでした。Java HTMLパーサでフレームソースコードを取得していますか?

これを行うパーサーは誰も知っていますか?

回答:

Phaniは私がHTMLスクレーパー(ないパーサーは、クリーナー)

HtmlUnitがトリックを行うように見える必要が示されているように:あなたのユースケースからhttp://htmlunit.sourceforge.net/frame-howto.html

答えて

0

を、あなたはよりスクレーパーを必要としますクリーナー。

クリーナー - 通常、汚れていて、不適切な形であり、それ以上の処理には適していません。そのような文書の深刻な消費のためには、最初に混乱をきれいにし、タグ、属性および普通のテキストに命令をもたらす必要があります。

スクレーパー - 文法的にページを読み、HTMLページを編集します。彼らは、フレームのためのより多くの文書化のケースを提供するので

http://sourceforge.net/projects/htmlscraper/

+0

HTMLのスクレーパーは、私は、私はHtmlUnitのためのより多くのつもり必要なものです:http://htmlunit.sourceforge.net/frame-howto.html – Rick

関連する問題