入力が32x32 RGB画像(32x32x3など)であるとします。CNNの後のフィルタでどのように色を認識できますか?
第1層のconvネットワーク上の5x5x3フィルタが緑 - 赤のフェードを認識すると、そのアクティブ化値が28x28のフィーチャマップに記録されます(ストライドが1でパディングが0の場合)。
この機能マップには色に関する情報が含まれていないため、次のコンバレイヤに入力するとconv2
と入力された場合、conv2
はグレースケールフィルタの学習のみを行います。
このように、上位レベルのフィルタにはどのように色情報が含まれていますか? this可視化から
彼らも色を気にしていないかのように、それはそうです。また、フィルタの色がそろっているように見えますが、クラスのフィーチャが実際にどのように表示されるかは実際には説明されていません。私が何を言っているのかを明確にするために、上に描かれた第3セットのフィルターに注目してください。自然界では、色が飽和した形で現れません。私の即時の反応は、一般化を容易にするように見えると推測することです。しかし、ほとんどの犬は顔の特徴にそのような色を持っていないので、その顔の内側に青い色合いを持つ犬のための高レベルのフィルタは、ラベルのプロセスに有害なではないでしょうか?