サンプルの正則化と機械学習の完全なデータセット

最近、ディープラーニングの場合、データを追加すると正則化は必要ないと説明したビデオを見ました。サンプルの正則化と機械学習の完全なデータセット

これは、この文は、ランダムフォレストのような「通常の」機械学習アルゴリズムを保持していると言われていますか？もしそうなら、アルゴリズムの最適なハイパーパラメータを検索するとき、理論的には、入力データセットとして（もちろん、クロスバリデーションセットなどに分かれています）たくさんのデータを持っている必要があります。それ。これはもちろん、ハイパーパラメタのすべての組み合わせについて、訓練などが必要なXクロス検証セットを持っているため、より長いトレーニング時間が必要です。

基本的に、あなたのデータセットの適度なサイズのサンプルで見つかったパラメータは、データセット全体に使用するのに最適なものか、そうでないと仮定するのは公正でしょうか？

出典

2017-02-01 gliga bogdan

統計学者の観点から言えば、それは実際に見積もりの品質に依存します。偏っていなくても分散が小さければ、サンプルは問題ありません。差異が大きい場合は、できるすべてのデータを使用したいと思うでしょう。

出典

2017-02-01 15:41:54

サンプルの正則化と機械学習の完全なデータセット

答えて

関連する問題