2016-04-08 4 views
1

私は分類問題をどうやって解決するかを理解しています。私は出力の位置を与えるためにネットワークを設定する方法について少し混乱しています。どのように神経網が位置を与えるように?

顔があるデータセットの鼻の終点位置があるとします。エンドポイントを見つけるには、出力レイヤーが64x64 = 4096ポイントのようなものであれば、「分類」タイプの問題だけですが、ノーズがグリッドのポイント行43とカラム20にある場合は、出力をすべてゼロ要素43 * 64 + 20 = 2772の場合、1に設定します。次に、それをイメージの次元に戻します。

この部分がどのように動作するかについての情報はほとんど見つかりません。私はこの方法論で2番目のプロジェクトに取り組んでいますが、それは多くの仕事になるでしょうし、少なくとも正しい方向にいるかどうかを知りたいと思っています。これは解決された問題だと思われますが、私は人々がこれをどうやって行うのか分かりません。

答えて

1

あなたが説明していることは実現可能ですが、一般にニューラルネットワーク(畳み込みなど)は、画像内の地物の位置を決定するためには使用されません。特に、畳み込みニューラルネットワーク(CNN)は、入力画像内の位置に関係なく機能を検出するように、翻訳不変であるように特別に設計されています。これは、あなたが探しているものの逆です。

説明している種類の問題の一般的で効果的な解決策は、カスケード分類子です。彼らにはいくつかの制限がありますが、あなたが書いているアプリケーションの種類によっては、おそらくかなりうまくいくでしょう。特に、カスケード分類器は、入力画像の大部分が最初の2つの段階によって非常に迅速に解消される段階的アプローチのために良好な性能を提供するように設計されている。

私が間違ってはいないか、あなたが説明した方法を試してみると面白いかもしれません。それがうまくスケールすることが困難であることが判明するかもしれないことに気をつけてください。

+1

私の執筆論文は、回帰分析に基づいた方法論を使っていることを示しているようです。本質的には、ニューラルネットワークを用いて位置を計算し、非線形効果の計算に畳み込みネットを使用します。 私は顔のランドマーク認識を試みようとしていました。そのエリアでは、ニューラルネットワークだけで良い結果が得られ、カスケード分類子をやや微妙にしています。私は間違いなくカスケード分類器を見ていますが、2段階の攻撃をそれらと神経網で使用することを考えています。 – user2927848

+1

私の経験では2段階のアプローチがうまくいきます。基本的には、まずカスケード分類器を使用してターゲットフィーチャの可能な場所を特定し、より高価なニューラルネット推論を使用して、その特定された場所の1つに信頼を置いています。そして、一般に、ニューラルネットでは、畳み込みレイヤーはあまり手作業による前処理なしで画像から重要な特徴を抽出する便利な方法を提供するので、CNNを使用します。 – Aenimated1

+1

カスケード分類子に関する私の1つの問題は、opencvのものが非常に厄介なように見えることです。回転的に変形していないものや、複数の角度から作業するものを訓練することは可能ですか?または、複数の角度で複数の分類器を使用して複数のパスを実行して、顔を確実に捕捉する必要がありますか? – user2927848

関連する問題