0

Two-Stream Convolutional Networks for Action Recognition in Videosを再現したいですか?caffe lmdbに多次元データを入力する方法は?

しかし、それは私が壁にヒットしたように、マルチフレーム入力をCaffeに与えるようになったように感じます。

シングルフレームネットワークでは50%の精度が得られます。 しかし、私はLMDBを介して30 * 227 * 227の入力を与えます。 20(3つのチャンネルでそれぞれ10フレーム)。 accuracy barely reaches 4%

これは、私がコーヒーに与えている入力が、必要な形式でないかモデルが間違っている(あまりあり得ない)と信じさせる。

私は3 x 10 x 227 x 227のスタイルで入力したいと思っています。 しかし、caffe LMDBは入力としてわずかな変数しかありません。すなわち、 高さ、幅、チャンネル、データ、ラベル。

私は3次元でしかデータを書き込むことができず、次に4番目のフレーム次元を取り上げることができません。

これを回避する人はいますか?

また、私は分類のためにマルチフレームデータを使用しているcaffeの例をどこから見つけることができるか知っていますか?

私が知る限り、Caffeはデータを扱うために4Dブロブを使用しているので、バッチ処理はできません。したがって、一度に1つのサンプルだけで動作します。また、これはフィルタの設計方法と、バッチとして一般的に使用される4次元のフレームの相関を処理できるかどうかによっても異なります。

これに関するアイデアはありますか?

P.s私もHDF5 similar resultsを試しました。

+0

代わりにhdf5入力を試してください – Shai

+0

同様に試してみてください。結果も添付 –

+0

HDF5の結果を見ると、入力サイズは50x48x58x58です。それはこの質問に関連していますか?正確さは〜3%で始まりますが、その後は着実に上昇します。 – Shai

答えて

0

上記の記事によると、RGB画像は、空間ストリームの入力であり、時間ストリームのための積み重なったオプティカルフローフレームです。したがって、まず、オプティカルフローフレームを抽出して、一時的なストリームにする必要があります。オプティカルフローフレームの各点は、画像チャネルとして と見ることができるxおよびy成分を有するベクトルに対応する。 L個の光学フレームを積み重ねると、2 * Lチャンネルの画像が得られ、caffeの入力は標準のbatch_sizex2LxHxWになります。また、この詳細についてはrepocodeをご覧ください。

関連する問題