Perlのリンクからメディア(画像、動画など)を取得する

Redditのr/pic sub-redditと同様に、私は様々なソースからのメディアを集めたいと思う。一部のサイトでは、OEmbed仕様を使用してページ上のメディアを公開していますが、すべてのサイトでメディアが公開されているわけではありません。私はRedditのソースを参照していました。なぜなら、ユーザーが提出したり、画像や動画などを取得したりするリンクを「擦り傷」してしまうからです。彼らはサムネイルを作成し、サイトのリンクに沿って表示します。さて、私は同様のことをしたいと思います。私は彼らのコードを見ました。[1]、彼らは認識する各ドメインのためのカスタムスクレーパーを持っていると思われますし、単純なロジックを使ってドメインからイメージを取得する汎用スクレーパークラスを持っています(基本的に、Webページを取得し、htmlを解析してから、ページ上でサムネイルの生成に使用する最大のイメージを決定します)。

Since it's open source I can probably reuse the code for my application but unfortunately I have chosen Perl as this is a hobby project and I'm trying to learn Perl. Is there a Perl module which has similar functionality? If not, is there a Perl module that is similar to Python Imaging Library? It would be handy to determine the image sizes without actually downloading the whole image & thumbnail generation.

ありがとう!

[1] https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

2

2 答え

Image::Size is the specialised module for determining image sizes from various format. It should be enough to read the first 1000 octets or so from a resource, enough for the diverse image headers, into a buffer and operating on that. I have not tested this.

私は全体のイメージリソースをダウンロードすることを避けるために、HTTP範囲要求のAPIを持つ一般的なスクレイピングモジュールは知らないが、 WWW :: Mechanize を参照してください。

1
追加された
ポインタありがとう。私はすでにWWW :: Mechanizeについて知っていますが、私は主に自分の記事を書くのではなく、ページとパッケージでメディアを検索しています。
追加された 著者 void_ptr,

PerlMagick を試してください。インストール手順もそこにリストされています。

0
追加された