ディープ学習最後に出力層の勾配は常にゼロです

私はudacity self driving challenge＃2で作業しています。私は学習率、活性化機能のような深いネットワークに何が変わるのか、トレーニング中にグラデーションゼロの問題を抱えています。私はクロスエントロピー損失とmse損失の両方を使用しました。クロスエントロピーの場合、階級差10、すなわちラジアン角度0.17で100クラスが使用される。たとえば、（-8.2〜-8.03）はクラス0で、次に（-8.03〜-7.86）はクラス1などです。ディープ学習最後に出力層の勾配は常にゼロです

添付のスクリーンショットをご覧ください。見られるように、出力前の層（第1の画像のfc4）はほぼゼロになる。したがって、上記のグラデーションのほとんどは、ほぼ同じパターンに従います。この勾配ゼロ誤差を除去するための提案が必要です。

Model_View

Gradient_Zero_fc4_layer

出典

2016-11-01 sridhars

これは勾配の問題、1を消失しているようだ）あなたはReluを試みたことがありますか？（私はあなたがdiff活性化fnを試したと言ったのを知っています）2.）層数を減らそうとしましたか？ 3.）あなたの機能は正規化されていますか？

この問題を防ぐために設計されたアーキテクチャ（例：LSTM）がありますが、上記のような単純なもので実現できるはずです。

出典

2016-11-01 20:47:38

私はreluとeluを試しました。しかし、それは動作していないようです。また、私は単純な4層アーキテクチャを試しましたが、それも失敗します。私は平均と標準化のみを行っています。それはイメージなので、私は他の正規化を試していません。私はそれを確認してみましょう。私は分類問題に使用されるLSTMについて知らない。より多くを探索するための良い出発点かもしれません。ありがとう。 – sridhars

あなたの問題について本当にユニークなものがなければ、アーキテクチャルートに行くことをお勧めしません。（それは試して実証された標準的な画像分類のように聞こえます）私が持っている他の唯一のコメントは、すべてのハイパーパラメータとオプションが連携しているため、ReLuをレイヤー数の少ないものなどと同時に試す必要があるかもしれません。あなたの問題を解決できることを願っています。 –

は、より多くのハイパーパラメータの組み合わせを試すことになります – sridhars

ディープ学習最後に出力層の勾配は常にゼロです

答えて

関連する問題