tag-soup

2熱

2答えて

約4500個のXML（HTML5）ファイルがあるディレクトリがあり、データのマニフェストを作成したいと考えています（実質titleとbase/@href）。この目的のために、関連するすべてのファイルパスを収集し、それらをreadFileで開き、tagsoupベースのパーサーに送信し、結果リストを出力/書式設定する関数を使用しています。これはファイルのサブセットで動作しますが、最終的にはopen

5熱

1答えて

jTidyとTagSoupのドキュメント

私はTagSoupとjTidyライブラリのドキュメント（可能であれば公式にドキュメント）を探しています。このライブラリを使用して、html（html、xhtmlまたはhtml5）タグの間に異なる名前空間を持つxmlタグを含むhtml "tagsoup"ファイルを操作します。私はHTMLCleaner、NekoHTML、Jerichoをテストしましたが、jTidyとTagSoupのドキュメントは

1熱

2答えて

DOM要素にXSLT変換を適用できますか？

私は、 "cleaned"する必要のあるユーザ生成要素がたくさんあるWebページを持っています。その目的に合っているため、クリーンアップをXSLT変換として表現したいと思います。 Webページの一部にXSLT変換を適用する方法はありますか？（そして、最初にtagsoupに似たものでソース要素をチェックして、整形式であることを確認する必要がありますか？）私が見つけたすべての例は、Ajaxを介して

3熱

1答えて

ラップ私は、HTML文書では、この構造を有している、プレーンHTMLテキスト

周りタグ： "You began the evening well, Charlotte," said Mrs. Bennet with civil self–command to Miss Lucas. "You were Mr. Bingley's first choice." しかし、私はそれを処理できるよ

6熱

1答えて

wikipediaからpdfファイルをダウンロード

ウィキペディアは、すべての記事にリンクを提供しています（pdfとして記事をダウンロードしてください）。私は最初にWikipediaのリンクを取得してレンダリングリンクを出力する小さなHaskellスクリプトを書いた。私はレンダリングURLを入力として与えていますが、空のタグを取得していますが、ブラウザの同じURLにダウンロードリンクがあります。誰かがこの問題を解決する方法を教えてください。コード

3熱

1答えて

TagSoupとXPath

私はXPath（JAXP）でTagSoupを使用しようとしています。私はTagSoup（またはXMLReader）からSAXパーサを取得する方法を知っています。しかし、私はそのSAXパーサを使用するDocumentBuilderの作成方法を見つけることができませんでした。それ、どうやったら出来るの？ありがとうございます。 EDIT：とても一般的ですが、Java XML APIはあまりにも痛みです

6熱

1答えて

HaskellのTagSoupでタグを解析する

私はHaskellのHTMLファイルからデータを抽出する方法を学び、壁に衝突しました。私は実際にHaskellを経験したことはありません。私の以前の知識はPython（そしてHTML解析のためのBeatifulSoup）です。私はTagSoupを使用して自分のHTML（推奨されていると思われる）を見て、その仕組みが基本的な考え方を持っています。ここで問題になっている私のコードの基本的な部分は（自

0熱

1答えて

Tagsoup、別のタグへのテキストとしてのタグ

こんにちは。私の質問はtagsoupと関係があるので、達成したいのは別のタグのテキストとしてタグを持つことです。具体的には<a href="http://twitter.com/devices" rel="nofollow">をタグのテキストにしたいと思いますが、それはできないようです開いているポイントブラケットを見るたびに、それを新しいタグとして解釈するからです。それで、これを実行する方法はあ