2

畳み込みニューラルネットワークに関しては、通常、さまざまな戦略を推薦する多くの論文があります。私は、畳み込みの前に画像にパディングを追加することが絶対必要であると言う人がいると聞いています。そうでなければ多くの空間情報が失われます。一方、彼らは画像のサイズを縮小するために、通常は最大プールするプールを使用して満足しています。私はここでは、最大プールは空間情報を減少させるだけでなく、相対位置に対する感度も低下させるという考えがあると考えているので、それはトレードオフですか?最大プール対ゼロ埋め込み:空間情報を失う

私は、ゼロパディングがより多くの情報を保持しているとは言えませんが、もっと空のデータがあります。これは、ゼロを追加すると、情報の一部が欠落しているとカーネルから反応が得られないためです。

カーネルの小さな領域に中心があるエッジの「スクラップ値」とアクティブ化のソースがある大きなカーネルがある場合、ゼロパディングが機能すると思いますか?

パディングを使用しないプーリング・コントラを使用したダウン・サンプリングの影響に関するいくつかの論文を読んでいただければ幸いです。良いアドバイスや考え? Spatial down-sampling using convolution contra pooling

図:パディングを追加する畳み込みコントラプーリング(Researchgate)

+1

私は機械学習の理論(プログラミングではない)の質問であるため、この質問を議論の対象外としているので、http://datascience.stackexchange.comまたはhttp://stats.stackexchangeに属している可能性があります。 com。 – mtrw

答えて

0

を用いて空間的ダウンサンプリングは、「絶対必要」ではありません。出力のサイズを制御して、コンボリューションによって縮小されないようにすることが便利な場合もあります(サイズやカーネルサイズによっては、出力を増やすこともできます)。ゼロパディングが追加する唯一の情報は、フィーチャの境界(または境界近く)の条件であり、入力の限界内であり、カーネルのサイズにも依存する。 (あなたはそれを絵の枠内で「駄目」と考えることができます)

プールは、コンビネーションでもっと重要です。プーリングは正確に「ダウンサンプリング」ではなく、「空間情報を失う」こともありません。プールの前にカーネルの計算が行われ、完全な空間情報があることをまず考慮してください。プーリングはディメンションを減らしますが、これまでにカーネルによって学習された情報をうまく保持します。そして、そうすることによって、コンノートについて最も興味深いものの1つを達成します。入力の変位、回転または歪みに対するロバスト性。不変性は、学習された場合、別の場所に表示されたり、歪んだりしても配置されます。それはまた、規模の拡大、さまざまなスケールでのうまく階層的なパターンの発見を通じて学習することを意味します。もちろん、コンバネットでも必要ですが、プールすることでレイヤの数が増えると計算が可能になります。

0

私はこの質問にしばらく気をつけましたが、いくつかの論文にも同じ問題が言及されています。ここに私が見つけた最近の論文があります。 Recombinator Networks: Learning Coarse-to-Fine Feature Aggregation。私は完全に紙を読んでいないが、それはあなたの質問に気にするようだ。私は論文を完全に把握するとすぐにこの答えを更新することができます。

関連する問題