0

CNNの受容野と検出すべきオブジェクトサイズの関係に関する質問があります。 私のオブジェクトのサイズは16x16ピクセルです。したがって、受容野は少なくとも16x16であるべきですか?それとももっと大きいのでしょうか?受容野が大きくなると悪いことができますか?この例では100x100と言いましょう。受信フィールドサイズ対オブジェクトサイズ

これは難しい質問ですが、誰かが受容野をどの程度大きくしてオブジェクトの大きさに関係させるべきかについての経験があります。

あなたは

答えて

0

受容野が決定を行う際に考慮された画素の量を決定ありがとうございます。オブジェクトのサブセットを使用して、特定のサブセットであるかどうかを判断する場合は、クロップを行い、人間にどのオブジェクトがあるかを尋ねるようなものです。これは難しいことです。

通常、情報に基づいた判断を下すには、周辺情報を考慮すると便利です。

あまりにも多くの周囲情報を使用することによる唯一の問題は、ネットワークが、トレーニングセット内では相関するが実生活ではないため、オブジェクト自体に関連しないものに基づいて決定を下す可能性があるということです。例えば。車の分類。あなたはすべてのアウディと他の車のための赤い背景があります。だから、イメージ全体を受容野として使うなら、おそらくAudiを車の特徴ではなく背景に基づいて分類するでしょう。あなたの明確化へ

編集:

私は指紋と同じような何かを行っています。私はバイナリイメージのセグメンテーションを見て、オブジェクトごとに6x6の領域や何かを使用して、損失関数がよりスムーズになるように助言します。これは私の場合に最適でした。

これは純粋に理論的な質問です。なぜなら、とにかく良好な結果を保存するのに十分な深さが必要であり、受容野はオブジェクトよりも大きくなるからです。さらに、オブジェクトはそのサイズを変更することができるので、固定された受容サイズはシーン内のすべてのオブジェクトに対して機能しません。それがピクセルの受け入れ可能なサイズを制限するのを助けるならば、それはまだ興味深い実験でしょう。そうは思わない。

+0

さて、大きなオブジェクトを分類するこのケースでは、フィルタサイズを小さくして大きくしないでください。私の場合は密度推定問題のようなものです。画像に10x10 - 16x16のサイズのセルがあるとします。私の画像パッチは72x72です。最後の層の私の効果的な受容野(多くの3x3フィルター+プール層を通して)が72x72画像パッチ全体をカバーし、例として画像パッチが中間に1つの細胞を持つならば、最後の層の各ニューロンは同じ値?? – Biba

+0

レセプションフィールドについて心配する必要がないように、イメージを正しいサイズにトリミングしないのはなぜですか?私は、単一の細胞を抽出し、それらをネットワークに供給することを意味します。 –

+0

イメージパッチの中央にある1つのセルは単なる例でした。イメージは次のようになります。[https://s-media-cache-ak0.pinimg.com/originals/77/4b/09/774b098dd3e9eec4884701d97c93d47b.jpg]したがって、セルの半分以上、また重複している... – Biba

0

受容野の相対サイズは、ネットワークの全体的なアーキテクチャによって異なります。しかし、一般的に言えば、検出したいオブジェクトのサイズよりも小さいフィルタ受容フィールドが必要です。十分な数の畳み込みフィルタを持つレイヤーがあると仮定すると、オブジェクトのフィーチャー(エッジ、カラー、テクスチャなど)をフィルタが検出できるように受容フィールドのサイズを設定します。 CNNの後続のレイヤーは、そのオブジェクトを検出するためにフィーチャーを結合します。

たとえば、hereを参照してください。 "Example filters ..."というキャプションの図は、11x11ピクセルの受容野を持つ学習された畳み込みフィルタを示していますが、検出されるオブジェクト(この場合は車)は何百ピクセルにも及んでいます。

+0

ええ、11x11フィルタは最終的な受容フィールドではありません。第1層の受容野であってもよいが、多くの層が積み重なっていると受容野が成長する。したがって、3x3のフィルタを備えた最後のレイヤーでは、このレイヤーの有効な受容野は元の画像の200x200ピクセルをカバーすることができ、ほぼ全車をカバーすることができます。 – Biba

+0

私は、あなたが最終的な畳み込み層の効果的な受容野を指しているのを見ています。私はあなたの最終受容野をオブジェクトよりも大きくする必要はないと思っていますが、ネットワークのパフォーマンスは、畳み込み層を越えて完全に接続された(または他の)層をどのように構造化したかによって大きく左右されるでしょう。 – bogatron

関連する問題