4ノードH2Oクラスターに20個のフレームがあるとします:a1..a5、b1..b5、c1..c5、d1..d5。私はそれらを1つの大きなフレームに結合して、そこからモデルを構築したいと思います。 、引数のためにrbindの前のcbind、またはcbindの前のrbind?
h2o.cbind(
h2o.rbind(a1, a2, a3, a4, a5),
h2o.rbind(b1, b2, b3, b4, b5),
h2o.rbind(c1, c2, c3, c4, c5),
h2o.rbind(d1, d2, d3, d4, d5)
)
1:
h2o.rbind(
h2o.cbind(a1, b1, c1, d1),
h2o.cbind(a2, b2, c2, d2),
h2o.cbind(a3, b3, c3, d3),
h2o.cbind(a4, b4, c4, d4),
h2o.cbind(a5, b5, c5, d5)
)
あるいは、最初の行を結合する場合、列:
は、それが行を結合し、その後、列のセットを組み合わせた方が良いです/ 2/3/4/5はそれぞれ1カ月分のデータを表している可能性があります。そして、a/b/c/dは異なるフィーチャセットであり、別々にインポートされた理由を再説明します。 a1..a5には1728の列があり、b1..b5には113の列があり、c1..c5には360の列があり、d1..d5は単一の列です(私がモデル化する答え)。 (H2Oはカラムデータベースなので、/ b/c/dの相対的なカラム数は関係ありませんか?)
「良い」とは、私は主に、ビッグデータのケースに興味があります。ビッグデータの場合、結合されたフレームが十分に大きく、私はそれをちょうどaaのメモリに収めることができません単一ノード。
あなたのdownvoteでコメントを受け取るのに常に役立ちます。さもなければ、私はどのように明確ではないか、修正が必要なのかを知っていますか? –