私はリカレントニューラルネットワークを再現したいと思います。それぞれの時間レイヤの後ろにドロップアウトレイヤがあり、これらのドロップアウトレイヤがマスクを共有します。この構造は、とりわけ、A Theoretically Grounded Application of Dropout in Recurrent Neural Networksに記載されている。mxnet:共有マスクを使用した複数のドロップアウトレイヤ
私がこのコードを理解している限り、MXNetで実装されたリカレントネットワークモデルには、時間レイヤー間にドロップアウトレイヤーが適用されていません。 lstm
(R API,)のような関数のパラメータdropout
は実際には入力にドロップアウトを定義します。したがって、これらの関数をゼロから再実装する必要があります。
ただし、ドロップアウトレイヤーは、maskをパラメータとして定義する変数を使用していないようです。
計算グラフのさまざまな場所に複数のドロップアウトレイヤを作成できますが、マスクは共有できますか?
問題をRNGで修正する作業がありますが、引き続きマスクを指定することはできません。 –
[PR](https://github.com/apache/incubator-mxnet/pull/9366)にリンクしてください。 –