さまざまな入力を使用した完全畳み込みネットワーク

私は、以下で読むことができる完全に畳み込み的なニューラルネットワークU-Netを持っています。さまざまな入力を使用した完全畳み込みネットワーク

https://arxiv.org/pdf/1505.04597.pdf

私は、画像のピクセル毎の分類を行うためにそれを使用したいです。私はトレーニング画像を512x512と768x768の2種類のサイズで用意しています。私は、最初のステップではサイズ（256,256,256,256）、後者では（384,384,384,384）のサイズの反射パディングを使用しています。私は畳み込みの前に連続するパディングを行い、入力の大きさの出力を得る。

私のパディングは画像/入力のサイズに依存するので、私は一般化モデル（私はTorchを使用しています）を構築することはできません。

このような場合、どのようにパディングが行われますか？

私は深い学習に新しいです、どんな助けも素晴らしいでしょう。ありがとう。

出典

2016-07-07 Mojo Jojo

お使いのモデルは、最初のレイヤーのサイズの画像のみを受け取ります。ネットワークに転送する前に、すべてを前処理する必要があります。そうするためには、あなたが使用することができます。

image.scale(img, width, height, 'bilinear')

img私は間違っていないならば、それは* 572である（スケールする画像、widthとheightモデルの第一層のサイズになります572）、'bilinear'は画像を拡大縮小するために使用するアルゴリズムです。

画像の平均を抽出するか、またはモデルの訓練方法に応じてBGRに変更する必要があることに注意してください。

出典

2016-07-07 20:53:58

最初に行うことは、すべての画像を同じサイズに処理することです。 CONVレイヤーの入力では、すべてのイメージが指定されたサイズである必要があります。

Caffeでは、reshapeがprototxtファイル内にあります。 Torch、I createModelの前にドロップできる同等のコマンドがありますが、コマンド名は思い出せません。そうでなければ、モデルフローの外でそれを行う必要があります。

出典

2016-07-07 18:57:20 Prune

さまざまな入力を使用した完全畳み込みネットワーク

答えて

関連する問題