jtidy

1熱

2答えて

現在、JTidyを使用してHTMLドキュメントを解析し、指定されたHTMLドキュメント内のすべてのアンカータグのコレクションを取得しています。次に、各タグのhref属性の値を抽出して、ページ上のリンクの集合を作成します。残念ながら、これらのリンクは、いくつかの異なる方法で表すことができる：（http://www.example.com/page.html）いくつかの絶対的、相対的、いくつかの（/

0熱

5答えて

DIVの要素をすばやくトラバースする、または要素を見つける方法

動的ページのURLをヒットし、コンテンツを取得し、さまざまなネストされたdivタグで特定のdivタグを検索し、コンテンツを取得するユーティリティを作成しています。主に、私はいくつかのJavaコード/ライブラリを探しています。 JavaScriptやJavaScriptベースのライブラリも私の役に立つでしょう。 - > JSoup、Jerry、JTidy（2009-12-01最終更新）。どちらが最

2熱

2答えて

はorg.jdom.Document

へのorg.w3c.dom.Documentを変換する方法を私は、次の次のことを試してみましたorg.w3c.dom.Document org.jdom.Documentに... InputStream inputStream = new ByteArrayInputStream(str.getBytes()); Tidy tidy = new Tidy(); tidy.setMakeCle

2熱

1答えて

jTidy - 頭なしのプリティプリント、タイトルタグ

jTidyを使用して、私が持っているHTMLスニペットにかなり印刷しようとしています。これまで私は以下のことをしてきました。 protected String prettyPrintHTML(String rawHTML) { Tidy tidy = new Tidy(); tidy.setXHTML(true); tidy.setIndentContent(tru

1熱

1答えて

Javaのタイトルテキストに関する問題

私はJtidyパーサーを使って、タイトルテキストを取得しました。上記のコード String titleText=null; try { titleText = doc.getElementsByTagName("title").item(0) .getFirstChild().getNodeValue(); } catch (Exception e1) { t

2熱

1答えて

w3c HTML Validatorで使用されるJTidy（HTML-Tidy）構成

JTidy（HTML TidyライブラリのJavaポート）を使用して既存のサイトをスクラブしています。私がJTidyの設定を使用したとき、非常に厳しいように見え、ページの最後を切り取ってしまいます（悪いマークアップ）。私はw3c HTMLバリデーターツールだけで同じマークアップを実行すると、そのマークアップをクリーンアップしますが、書き直しにはもっとインテリジェントです。タグを切り落とす代わりに

2熱

2答えて

特定のHTML要素を見つけるためにJTidyから返されたDOMを解析します

私はこのコードをしばらく再生していますが、私が間違っていることはわかりません。 URLが取得され、整形式ではないので、JTidyでクリーンアップしてから、特定の非表示の入力フィールド（input type="hidden" name="mytarget" value="313"）を見つける必要があるため、name属性の値を知っています。私はHTMLページ全体をクリーンアップして印刷していますので

1熱

1答えて

読んで問題がありますタグwebのWebページから

私はjtidyパーサを使ってWebページを解析しています。それは<title>...</title>のために正常に動作して InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/article.htm").openStream(); Document doc= new Tidy().parseDOM(in, null

0熱

1答えて

ノードを使用してウェブサイトに接続する

私はウェブサイトに接続し、ソースコードを入手し、ノードを使用して<body>タグを探すプログラムを作成しようとしています。そのタグには、値を入力してウェブサイトに戻す3つの「テキストフィールド」があります。私は今まで<body>というタグを見つけていましたが、今は実際にはわかりません。あなたが実際に docx.getElementsByTagName("tagname") を使用して直接これ

1熱

1答えて

HTML5の出力がきれいにフォーマットされています

HTML5の出力を自動的にインデントしようとしています。私が使用しようとしたツールはJTidyでしたが、問題はHTML5要素をサポートしていないことです。たとえば、HTML5が本文中で使用するのに対し、すべてがヘッダーに移動します。 HTMLはXMLではないので、標準のJava XMLツールをインデントに使用することはできません。