2017-11-16 1 views
2

私はH2Oを初めて使用しています。これまでのところ、私は列車試験の分割について、SklearnのStratifiedKFold()を使用しました。列車とテストに分割すると、H2Oデータフレームの行インデックスを取得します

skf = StratifiedKFold(n_splits=n, random_state=None, shuffle=False) 
for train_index, test_index in skf.split(X, y):    
    X_train, X_test = X[train_index], X[test_index] 
    y_train, y_test = y[train_index], y[test_index] 

後で処理するためにインデックスが必要です。

H2Oでは、相互検証を行っている間にインデックスを取得する方法がわかりません。

gbm_model = H2OGradientBoostingEstimator(model_id = 'gbm_model',nfolds=5) 

は、どのように私は、各折り目の電車やテストインデックスを得るのですか?私は、これは我々がH2OでCVを行う方法で、ビデオやブログを通じて集まってきたものから、

また、簡単な分割を行っているときにインデックスを取得するにはどうすればよいですか?

data_split = data.split_frame(ratios=[0.8],seed = 1234) 
train_df = data_split[0] 
test_df = data_split[1] 

訓練とテストに入ったインデックスを取得するにはどうすればよいですか?

答えて

1

stratified_kfold_column(n_folds=3, seed=-1)またはstratified_split(test_frac=0.2, seed=-1)を使用して、後で分割するサブセットに使用できる分割を含む列を作成できます。

docs

関連する問題