大きなデータセットをインポートするにはどうすればよいですか？

-3

私はPythonと機械学習の初心者です。トレーニングと分類のために大規模なデータセット（500回の観測×300回のフィーチャ）をロードするのは本当に難しいと思っています。このような大きなデータを読み込むコードを私に提供してください。ここで大きなデータセットをインポートするにはどうすればよいですか？

2016-04-29 ash11114

300個の機能を備えた500個のインスタンスは、通常、大きなデータセットとはみなされません。それにかかわらず、データの種類と形式を知らなくても、誰もあなたを本当に助けることはできません。 – bogatron

そのcsv形式と実数/数値データ型のUCIリポジトリからのクラス分類に使用したい不整脈データセット – ash11114

[numpy.loadtxt]（http://docs.scipy.org/doc/numpy/reference/generated /numpy.loadtxt.html）。 – bogatron

はあなたのための3つのオプションがあります：

は、すべての値が文字列として読み込まれます、あなたが何をすることを決定しなければならないリスト
```
>>> data = [line.strip().split(',') for line in open('arrhythmia.txt')] 
```
のリストに直接データを読み込みそれを行うが、あなたは最も柔軟性があります。
numpyndarrayにデータを読み取り、数値以外の値を扱うことができる利用numpy.genfromtext、（「？」）のデータに表示されます。
と同じですが、numpy.genfromtextと似ていますが、pandas.DataFrameオブジェクトにデータを読み込みます。これには、pandasモジュールも必要ですが、名前付きの列/属性などの追加機能があります。

そしてこの質問に対する答えは、より適切であることに留意すべきである400キロバイトの下にあるデータファイル、以来、「どのように私は、テキストファイルからコンマ区切りのデータ値の2次元配列を読んでください」現在の（2016年）の基準では「大規模なデータセット」とは考えにくい。

2016-04-29 17:15:41 bogatron

答えて