caffe lmdbに多次元データを入力する方法は？

Two-Stream Convolutional Networks for Action Recognition in Videosを再現したいですか？caffe lmdbに多次元データを入力する方法は？

しかし、それは私が壁にヒットしたように、マルチフレーム入力をCaffeに与えるようになったように感じます。

シングルフレームネットワークでは50％の精度が得られます。しかし、私はLMDBを介して30 * 227 * 227の入力を与えます。 20（3つのチャンネルでそれぞれ10フレーム）。 accuracy barely reaches 4%。

これは、私がコーヒーに与えている入力が、必要な形式でないかモデルが間違っている（あまりあり得ない）と信じさせる。

私は3 x 10 x 227 x 227のスタイルで入力したいと思っています。しかし、caffe LMDBは入力としてわずかな変数しかありません。すなわち、高さ、幅、チャンネル、データ、ラベル。

私は3次元でしかデータを書き込むことができず、次に4番目のフレーム次元を取り上げることができません。

これを回避する人はいますか？

また、私は分類のためにマルチフレームデータを使用しているcaffeの例をどこから見つけることができるか知っていますか？

私が知る限り、Caffeはデータを扱うために4Dブロブを使用しているので、バッチ処理はできません。したがって、一度に1つのサンプルだけで動作します。また、これはフィルタの設計方法と、バッチとして一般的に使用される4次元のフレームの相関を処理できるかどうかによっても異なります。

これに関するアイデアはありますか？

P.s私もHDF5 similar resultsを試しました。

出典

2016-05-25 Arsenal Fanatic

代わりにhdf5入力を試してください – Shai

同様に試してみてください。結果も添付 –

HDF5の結果を見ると、入力サイズは50x48x58x58です。それはこの質問に関連していますか？正確さは〜3％で始まりますが、その後は着実に上昇します。 – Shai

上記の記事によると、RGB画像は、空間ストリームの入力であり、時間ストリームのための積み重なったオプティカルフローフレームです。したがって、まず、オプティカルフローフレームを抽出して、一時的なストリームにする必要があります。オプティカルフローフレームの各点は、画像チャネルとしてと見ることができるxおよびy成分を有するベクトルに対応する。 L個の光学フレームを積み重ねると、2 * Lチャンネルの画像が得られ、caffeの入力は標準のbatch_sizex2LxHxWになります。また、この詳細についてはrepoとcodeをご覧ください。

出典

2016-05-30 15:20:09

caffe lmdbに多次元データを入力する方法は？

答えて

関連する問題