2016-08-09 8 views
0

特定の画像拡張子ではない画像が存在する可能性があるという問題があります。たとえば、Nutch2は.ashxで終わるページをクロールしていましたが、まだ画像でした。Nutch 2はコンテンツタイプの画像をクロールから除外します

HTMLヘッダーフィルタを使用して画像を除外する方法はありますか:content-type: images/*またはそれに相当するが、URLパターンに基づいていないもの(regex-urlfilter.txt)?

答えて

0

これは、URLFilterインターフェイスを拡張するpluginと書くことで実現できます。

String filter(String urlString)の方法では、曖昧な拡張子がある場合はURLを確認し、サーバーからHTTPヘッダー値を取得してコンテンツタイプがイメージであることを確認してからnullを返します。しかし、この検証目的のためだけに多くの無駄なHTTPコールが生成されるため、効率の良い方法ではないとは思えません。

もう1つのことは、Nutchがイメージを解析したり索引したりしないことです。

関連する問題