0

最近、ディープラーニングの場合、データを追加すると正則化は必要ないと説明したビデオを見ました。サンプルの正則化と機械学習の完全なデータセット

これは、この文は、ランダムフォレストのような「通常の」機械学習アルゴリズムを保持していると言われていますか?もしそうなら、アルゴリズムの最適なハイパーパラメータを検索するとき、理論的には、入力データセットとして(もちろん、クロスバリデーションセットなどに分かれています)たくさんのデータを持っている必要があります。それ。これはもちろん、ハイパーパラメタのすべての組み合わせについて、訓練などが必要なXクロス検証セットを持っているため、より長いトレーニング時間が必要です。

基本的に、あなたのデータセットの適度なサイズのサンプルで見つかったパラメータは、データセット全体に使用するのに最適なものか、そうでないと仮定するのは公正でしょうか?

答えて

1

統計学者の観点から言えば、それは実際に見積もりの​​品質に依存します。偏っていなくても分散が小さければ、サンプルは問題ありません。差異が大きい場合は、できるすべてのデータを使用したいと思うでしょう。

関連する問題