1

私はPerson Re-Identificationの問題に取り組んでおり、CMC曲線を使って結果を表示しています。 トレーニングセットでは、通常の画像(現在CUHK01でトレーニング中)とともに拡張データ/画像を使用しました。拡張ランクを計算するための通常のテスト画像とともに拡張データを使用しないかどうかをテストしている間に、ランク1とランク1を比較すると、ランク1〜30%が得られます。世界で現在のRank_1の精度に関しては奇妙なほど高いです)。テストで拡張データイメージを使用する

だから私の質問は

a)はどのようにデータが私の場合には、特に設定のテストに影響を与える増補んされています。

b)オーバーフィットかそのようなものですか?

c)テストケースで拡張されたイメージの使用を避けるのが一般的なルールですか。

答えて

0

データ増強を使用する理由は、オーバーフィットの可能性を減らすためです。このようにして、パラメータ(theta)が増強しているデータ(alpha)と相関していないことをモデルに伝えたいとします。これは可能なすべてのアルファによって各入力を増やすことによって達成されます。しかし、これは多くの理由で現実​​とは程遠い。時間/メモリの制限によって、可能なすべての拡張などを構築することができない場合がありますので、偏りがあるかもしれません。それにもかかわらず、それはあなたのデータセットへのオーバーフィットの機会を減らしますが、あなたの増強には余裕があるかもしれません。

このように、補完がある場合は、補題のために補強されたデータにマッチングすることでより正確な結果を得ることができます。これは質問aの答えです。だから、私は質問bの答えははいと信じています。

質問cに答えるために、私はデータ拡張の規則については読んでいませんが、機械学習の文献では、テストセットの拡張を避けると仮定します。例えば私たちは、ランダムな背景画像と緑のスクリーンを交換 でのトレーニング画像を増補a paper

から引用し、 は

+0

ウムをrecoloring内在して色や濃淡の面で外観を変える、私は申し訳ありませんが、私はまだそれを感じることができません。一方で、データ補強は過大フィッティングを避けるためには良いと言えますが、オーバーフィッティングのためにテストケースに使用することはできません。あなたや誰かが研究論文やソースを知っていますか?また、私のテストケースでは、ランダムに配置されたイメージのように、2つ以上の組み合わせがあるデータだけが増強されていませんでした。 – Sanchit

+0

私は、訓練セットを増強する理由(モデルの一般化です)にすべて同意したと思います。しかし、テストセットを増強する理由は何でしょうか? – Mohammad

+1

よく基本的には、データをもっとたくさんのように見えますが(画像は繰り返し表示されます)、モデルを確認するためのより堅牢なテストを行うことはありません – Sanchit

関連する問題