2016-04-29 28 views
-3

私はPythonと機械学習の初心者です。トレーニングと分類のために大規模なデータセット(500回の観測×300回のフィーチャ)をロードするのは本当に難しいと思っています。このような大きなデータを読み込むコードを私に提供してください。ここで大きなデータセットをインポートするにはどうすればよいですか?

+1

300個の機能を備えた500個のインスタンスは、通常、大きなデータセットとはみなされません。それにかかわらず、データの種類と形式を知らなくても、誰もあなたを本当に助けることはできません。 – bogatron

+0

そのcsv形式と実数/数値データ型のUCIリポジトリからのクラス分類に使用したい不整脈データセット – ash11114

+0

[numpy.loadtxt](http://docs.scipy.org/doc/numpy/reference/generated /numpy.loadtxt.html)。 – bogatron

答えて

1

はあなたのための3つのオプションがあります:

  1. は、すべての値が文字列として読み込まれます、あなたが何をすることを決定しなければならないリスト

    >>> data = [line.strip().split(',') for line in open('arrhythmia.txt')] 
    

    のリストに直接データを読み込みそれを行うが、あなたは最も柔軟性があります。

  2. numpyndarrayにデータを読み取り、数値以外の値を扱うことができる利用numpy.genfromtext、(「?」)のデータに表示されます。

  3. と同じですが、numpy.genfromtextと似ていますが、pandas.DataFrameオブジェクトにデータを読み込みます。これには、pandasモジュールも必要ですが、名前付きの列/属性などの追加機能があります。

そしてこの質問に対する答えは、より適切であることに留意すべきである400キロバイトの下にあるデータファイル、以来、「どのように私は、テキストファイルからコンマ区切りのデータ値の2次元配列を読んでください」現在の(2016年)の基準では「大規模なデータセット」とは考えにくい。

関連する問題