2016-04-08 19 views
0

1000万行と1000個の変数を持つデータセットがあり、それらの変数に最も適合したいので、新しい行の値を見積もることができます。私はJamaのQR分解を使用しています(より良い提案は歓迎ですが、この質問はどの実装にも当てはまると思います)。残念ながら、それは時間がかかりすぎる。大量の変数を使用して大きなデータを効率的に最適化する方法

私には2つの選択肢があります。私は、例えば、1000のサイズ10,000のチャンクにデータを分割し、結果を平均化することができます。あるいは、例えば100行ごとに合計して、それらの結合された行をQR分解に張ることができます。

いずれかまたは両方の方法が数学的災害である可能性があります。私は誰かが正しい方向に私を向けることを望んでいます。

+0

[Stats.SE]または[Math.SE]に適しています。 – tzaman

+0

あなたが正しいです、私は閉じて数学で開きます。 – Eddie

答えて

0

このような大きなデータセットについては、HDF5を使用する必要があると言わざるを得ないでしょう。 HDF5は階層データフォーマットv5です。彼らは、C/C++実装APIと、さまざまな言語のための他のバインディングを持っています。 HDFはBツリーを使用してデータセットのインデックスを保持します。

HDF5は、Java、MATLAB、Scilab、Octave、Mathematica、IDL、Python、R、およびJuliaでサポートされています。

残念ながら、私は残念ながらこれ以上は分かりません。しかし、私は単純な探索的なインターネット検索であなたの研究を始めるとお勧めします!

関連する問題