2011-11-12 11 views
2

Redditのr/picサブレッドディジットと同様に、さまざまなソースからメディアを集約したいと考えています。一部のサイトでは、OEmbed仕様を使用してページ上のメディアを公開していますが、すべてのサイトでメディアが公開されているわけではありません。私はRedditのソースを参照していました。なぜなら、ユーザーが提出した画像、動画などを取得するためのリンクを「擦り傷」しているからです。それらはサムネイルを作成し、サイトのリンクに沿って表示されます。さて、私は同様のことをしたいと思います。私は彼らのコードを見ました。[1]、彼らは認識する各ドメインのためのカスタムスクレーパーを持っていると思われますし、単純なロジックを使ってドメインからイメージを取得する汎用スクレーパークラスを持っています(基本的に、Webページを取得し、htmlを解析してから、ページ上でサムネイルの生成に使用する最大のイメージを決定します)。Perlのリンクからメディア(画像、動画など)を取得する

私はおそらく私のアプリケーションのコードを再利用することができますが、残念ながらこれはホビープロジェクトであり、私はPerlを学びたいと思っています。同様の機能を持つPerlモジュールはありますか?そうでない場合は、Python Imaging Libraryに似たPerlモジュールがありますか?画像全体を実際にダウンロードすることなく画像サイズを決定すると便利です。&サムネイル生成。

ありがとうございます!

[1] https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

答えて

0

PerlMagickを試して、インストール指示も存在記載されています。

1

Image::Sizeは、さまざまな形式の画像サイズを判別するための特殊なモジュールです。さまざまなイメージヘッダのために十分なリソースから最初の1000オクテット程度を読みとるには、十分でなければなりません。into a buffer and operating on that私はこれをテストしていない。

イメージリソース全体のダウンロードを避けるために、HTTP範囲リクエスト用のAPIを持つ一般的なスクレイピングモジュールはわかりませんが、WWW::Mechanizeをサブクラス化するのは簡単です。

+0

ポインタありがとうございます。私はすでにWWW :: Mechanizeについて知っていますが、私は主に自分の記事を書くのではなく、ページとパッケージでメディアを検索しています。 –

関連する問題