0
特定の画像拡張子ではない画像が存在する可能性があるという問題があります。たとえば、Nutch2は.ashx
で終わるページをクロールしていましたが、まだ画像でした。Nutch 2はコンテンツタイプの画像をクロールから除外します
HTMLヘッダーフィルタを使用して画像を除外する方法はありますか:content-type: images/*
またはそれに相当するが、URLパターンに基づいていないもの(regex-urlfilter.txt
)?