tag-soup

    2

    2答えて

    約4500個のXML(HTML5)ファイルがあるディレクトリがあり、データのマニフェストを作成したいと考えています(実質titleとbase/@href)。 この目的のために、関連するすべてのファイルパスを収集し、それらをreadFileで開き、tagsoupベースのパーサーに送信し、結果リストを出力/書式設定する関数を使用しています。 これはファイルのサブセットで動作しますが、最終的にはopen

    5

    1答えて

    私はTagSoupとjTidyライブラリのドキュメント(可能であれば公式にドキュメント)を探しています。 このライブラリを使用して、html(html、xhtmlまたはhtml5)タグの間に異なる名前空間を持つxmlタグを含むhtml "tagsoup"ファイルを操作します。 私はHTMLCleaner、NekoHTML、Jerichoをテストしましたが、jTidyとTagSoupのドキュメントは

    1

    2答えて

    私は、 "cleaned"する必要のあるユーザ生成要素がたくさんあるWebページを持っています。その目的に合っているため、クリーンアップをXSLT変換として表現したいと思います。 Webページの一部にXSLT変換を適用する方法はありますか? (そして、最初にtagsoupに似たものでソース要素をチェックして、整形式であることを確認する必要がありますか?) 私が見つけたすべての例は、Ajaxを介して

    3

    1答えて

    周りタグ: <p> "<em>You</em> began the evening well, Charlotte," said Mrs. Bennet with civil self–command to Miss Lucas. "<em>You</em> were Mr. Bingley's first choice." </p> しかし、私はそれを処理できるよ

    6

    1答えて

    ウィキペディアは、すべての記事にリンクを提供しています(pdfとして記事をダウンロードしてください)。私は最初にWikipediaのリンクを取得してレンダリングリンクを出力する小さなHaskellスクリプトを書いた。私はレンダリングURLを入力として与えていますが、空のタグを取得していますが、ブラウザの同じURLにダウンロードリンクがあります。 誰かがこの問題を解決する方法を教えてください。コード

    3

    1答えて

    私はXPath(JAXP)でTagSoupを使用しようとしています。私はTagSoup(またはXMLReader)からSAXパーサを取得する方法を知っています。しかし、私はそのSAXパーサを使用するDocumentBuilderの作成方法を見つけることができませんでした。それ、どうやったら出来るの? ありがとうございます。 EDIT:とても一般的ですが、Java XML APIはあまりにも痛みです

    6

    1答えて

    私はHaskellのHTMLファイルからデータを抽出する方法を学び、壁に衝突しました。私は実際にHaskellを経験したことはありません。私の以前の知識はPython(そしてHTML解析のためのBeatifulSoup)です。 私はTagSoupを使用して自分のHTML(推奨されていると思われる)を見て、その仕組みが基本的な考え方を持っています。ここで問題になっている私のコードの基本的な部分は(自

    0

    1答えて

    こんにちは。 私の質問はtagsoupと関係があるので、達成したいのは別のタグのテキストとしてタグを持つことです。具体的には<a href="http://twitter.com/devices" rel="nofollow">をタグのテキストにしたいと思いますが、それはできないようです開いているポイントブラケットを見るたびに、それを新しいタグとして解釈するからです。それで、これを実行する方法はあ