jtidy

    1

    2答えて

    現在、JTidyを使用してHTMLドキュメントを解析し、指定されたHTMLドキュメント内のすべてのアンカータグのコレクションを取得しています。次に、各タグのhref属性の値を抽出して、ページ上のリンクの集合を作成します。 残念ながら、これらのリンクは、いくつかの異なる方法で表すことができる:(http://www.example.com/page.html)いくつかの絶対的、相対的、いくつかの(/

    0

    5答えて

    動的ページのURLをヒットし、コンテンツを取得し、さまざまなネストされたdivタグで特定のdivタグを検索し、コンテンツを取得するユーティリティを作成しています。 主に、私はいくつかのJavaコード/ライブラリを探しています。 JavaScriptやJavaScriptベースのライブラリも私の役に立つでしょう。 - > JSoup、Jerry、JTidy(2009-12-01最終更新)。どちらが最

    2

    2答えて

    へのorg.w3c.dom.Documentを変換する方法を私は、次の次のことを試してみましたorg.w3c.dom.Document org.jdom.Documentに... InputStream inputStream = new ByteArrayInputStream(str.getBytes()); Tidy tidy = new Tidy(); tidy.setMakeCle

    2

    1答えて

    jTidyを使用して、私が持っているHTMLスニペットにかなり印刷しようとしています。これまで私は以下のことをしてきました。 protected String prettyPrintHTML(String rawHTML) { Tidy tidy = new Tidy(); tidy.setXHTML(true); tidy.setIndentContent(tru

    1

    1答えて

    私はJtidyパーサーを使って、タイトルテキストを取得しました。上記のコード String titleText=null; try { titleText = doc.getElementsByTagName("title").item(0) .getFirstChild().getNodeValue(); } catch (Exception e1) { t

    2

    1答えて

    JTidy(HTML TidyライブラリのJavaポート)を使用して既存のサイトをスクラブしています。私がJTidyの設定を使用したとき、非常に厳しいように見え、ページの最後を切り取ってしまいます(悪いマークアップ)。 私はw3c HTMLバリデーターツールだけで同じマークアップを実行すると、そのマークアップをクリーンアップしますが、書き直しにはもっとインテリジェントです。タグを切り落とす代わりに

    2

    2答えて

    私はこのコードをしばらく再生していますが、私が間違っていることはわかりません。 URLが取得され、整形式ではないので、JTidyでクリーンアップしてから、特定の非表示の入力フィールド(input type="hidden" name="mytarget" value="313")を見つける必要があるため、name属性の値を知っています。 私はHTMLページ全体をクリーンアップして印刷していますので

    1

    1答えて

    私はjtidyパーサを使ってWebページを解析しています。それは<title>...</title>のために正常に動作して InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/article.htm").openStream(); Document doc= new Tidy().parseDOM(in, null

    0

    1答えて

    私はウェブサイトに接続し、ソースコードを入手し、ノードを使用して<body>タグを探すプログラムを作成しようとしています。そのタグには、値を入力してウェブサイトに戻す3つの「テキストフィールド」があります。 私は今まで<body>というタグを見つけていましたが、今は実際にはわかりません。あなたが実際に docx.getElementsByTagName("tagname") を使用して直接これ

    1

    1答えて

    HTML5の出力を自動的にインデントしようとしています。私が使用しようとしたツールはJTidyでしたが、問題はHTML5要素をサポートしていないことです。たとえば、HTML5が本文中で使用するのに対し、すべてがヘッダーに移動します。 HTMLはXMLではないので、標準のJava XMLツールをインデントに使用することはできません。