2009-07-09 20 views
0

HTMLページがあると、HTMLファイルに埋め込まれている、またはリンクされている 'x'ファイルをすべて取得したいと考えています。 'x'はHTMLページ(任意の言語)からマルチメディアファイルを解析する

私はどのように
  • 画像(JPG、PNG、GIF ...)
  • 文書(ワード、パワーポイント、PDF ...)
  • フラッシュ(のFLV、swfファイル)

これを行う?

  1. だから画像は、彼らがいずれかで終わるリンクとにリンクされているので、抽出しやすい(.PNG | .JPG | ....)、またはそれらはimgタグが埋め込まれています。
  2. ドキュメントを埋め込むことはできません。ドキュメントはリンクできます(リンクは.doc | .ppt | .pdf | ...)。だから、彼らはまた簡単に得ることができます。ここで

私の問題である:

は、どのように私はWebページに埋め込まれたFlashファイルを入手できますか?

私に擬似アルゴリズムまたは正規表現のパターンを与えてください。

上記の私の指摘(1.と2.)に間違っている場合は、教えてください。

ありがとうございます!

答えて

0

Firefoxの拡張子DownThemAllを使用すると、ページを右クリックして、指定した拡張子のすべてのメディアをダウンロードできます。オープンソースなので、コードを見て、実装した方法を見たいと思うかもしれません。

0

私はイベントベースのXMLパーサー(SAXのような)を使用して、とタグのルールを記述してsrc属性とhref属性を取得します。

関連する問題