1

入力が32x32 RGB画像(32x32x3など)であるとします。CNNの後のフィルタでどのように色を認識できますか?

第1層のconvネットワーク上の5x5x3フィルタが緑 - 赤のフェードを認識すると、そのアクティブ化値が28x28のフィーチャマップに記録されます(ストライドが1でパディングが0の場合)。

この機能マップには色に関する情報が含まれていないため、次のコンバレイヤに入力するとconv2と入力された場合、conv2はグレースケールフィルタの学習のみを行います。

このように、上位レベルのフィルタにはどのように色情報が含まれていますか? this可視化から

Colored Filters

彼らも色を気にしていないかのように、それはそうです。また、フィルタの色がそろっているように見えますが、クラスのフィーチャが実際にどのように表示されるかは実際には説明されていません。私が何を言っているのかを明確にするために、上に描かれた第3セットのフィルターに注目してください。自然界では、色が飽和した形で現れません。私の即時の反応は、一般化を容易にするように見えると推測することです。しかし、ほとんどの犬は顔の特徴にそのような色を持っていないので、その顔の内側に青い色合いを持つ犬のための高レベルのフィルタは、ラベルのプロセスに有害なではないでしょうか?

答えて

1

はい、正しいです、畳み込みレイヤーのフィーチャーマップはグレースケールで表示されます。各フィーチャマップを個別に視覚化したい場合は、グレースケールイメージのみが表示されます。そのようなカラフルな画像を思いつく方法は、R、G、Bの値を割り当てる3つのフィルター(畳み込み機能マップ)を組み合わせることです。 this lectureには、視覚化技術の詳細があります。

関連する問題