2016-04-24 19 views
2

目的は画像からオブジェクトをローカライズすることです。私は既存のモデルを変更して訓練することに決めました。しかし、マスクを使ってモデルを訓練するか、ROIだけでモデルを訓練すべきかを決めることはできません。畳み込みニューラルネットワークの列車画像の選択

例:クラス1データの場合、クラス1オブジェクトのみがイメージに表示され、他のすべての領域は0で埋められ、2'ndクラスでは同じことが実行され、マスクの2'ndクラスのオブジェクト、3番目と4番目のクラスのクラスのオブジェクトなどです。私が関心に、マスクなしで領域のみを画像から各クラスをトリミングします:ROIのを使用して

第二の方法、。 https://github.com/jazzsaxmafia/Weakly_detector

私は第1、第2の方法またはを選択しなければならない。

はその後、私は、これは同様のことを行う続けることを期待しますか? 「あなたの計画はうまくいかない、これを試してください」などのコメントもありがとうございます。

--Edit-- 明確にすることが、

オリジナル画像http://s31.postimg.org/btyn660bf/image.jpg

第1 'のアプローチ使用してマスク:

ROIのを使用して第1 'のアプローチ:

P.S:オブジェクトの位置がので、多分もう少し有用であり得るマスクアプローチを用いて、新たな実施例のための非常に類似であろう。 ROIアプローチでは、非常にサイズの異なる各オブジェクトを正規化する必要があります。しかし、イメージマスク全体を正規化することは、元のマスクとの間の分散をはるかに少なくすることができる。

答えて

1

CNNは、大量の高品質データを訓練していると仮定すると、さまざまな背景に対して一般的に非常に堅牢です。だから私は、マスクとROIのアプローチを使うことの違いはそれほど大きくないと思います。それが価値がある場合は、どのアプローチを使用しているかにかかわらず、CNNに供給しているイメージのサイズを標準化する必要があります。

私はいくつかのジェスチャ認識ソフトウェアを実装し、同様の質問に遭遇しました。未処理の未処理ROIをそのまま使用することもできますし、バックグラウンドの多くをフィルタリングしたプリプロセスバージョンを使用することもできます。私は基本的にそれを両方の方法で試し、モデルの精度を比較しました。私の場合、私は前処理された画像から少し良い結果を得ることができました。一方、私の画像の背景ははるかに複雑で多様でした。とにかく、私のお勧めは、あなたのモデルと実験の正確さをテストして何が最も効果的かを確認するための頑強な仕組みを構築することです。

正直言って、最も重要なのは、各クラスの良いサンプルのを収集しています。です。私の場合は、クラスあたり約5000枚の画像が表示されるまで、私はかなりの改良を見続けました。大量のデータを収集するには時間がかかりますので、実際のデータ収集に関連するメタデータと一緒にフルサイズのイメージをキャプチャして保存するのが最善です。異なるアプローチを試すことができます(マスキングとROI 、変化する入力画像サイズ、ヒストグラム正規化のような他の前処理など)を実行することができる。

関連する問題