私はPythonと機械学習の初心者です。トレーニングと分類のために大規模なデータセット(500回の観測×300回のフィーチャ)をロードするのは本当に難しいと思っています。このような大きなデータを読み込むコードを私に提供してください。ここで大きなデータセットをインポートするにはどうすればよいですか?
-3
A
答えて
1
はあなたのための3つのオプションがあります:
は、すべての値が文字列として読み込まれます、あなたが何をすることを決定しなければならないリスト
>>> data = [line.strip().split(',') for line in open('arrhythmia.txt')]
のリストに直接データを読み込みそれを行うが、あなたは最も柔軟性があります。
numpy
ndarrayにデータを読み取り、数値以外の値を扱うことができる利用numpy.genfromtext、(「?」)のデータに表示されます。と同じですが、
numpy.genfromtext
と似ていますが、pandas.DataFrameオブジェクトにデータを読み込みます。これには、pandas
モジュールも必要ですが、名前付きの列/属性などの追加機能があります。
そしてこの質問に対する答えは、より適切であることに留意すべきである400キロバイトの下にあるデータファイル、以来、「どのように私は、テキストファイルからコンマ区切りのデータ値の2次元配列を読んでください」現在の(2016年)の基準では「大規模なデータセット」とは考えにくい。
関連する問題
- 1. 大きなデータセットを返すWCFサービスでストリーミングを使用するにはどうすればよいですか?
- 2. 2つの大きなデータセットの違いを確認するにはどうすればよいですか?
- 3. PowerShellは大きなデータセットをどのように扱いますか?
- 4. Automapperでデータセットを使用するにはどうすればよいですか?
- 5. データセットの列を削除するにはどうすればよいですか?
- 6. 大きなCSVファイルを扱うにはどうすればいいですか?
- 7. ExcelがCSV値を1つの大きな数値としてインポートしないようにするにはどうすればよいですか?
- 8. 非常に大きなラベルの付いていないNLPデータセットにFreebaseを使用してラベルを付けるにはどうすればよいですか?
- 9. C++でより大きいデータセットのデータに基づいて計算を処理するコードを作成するにはどうすればよいですか?
- 10. Androidプロジェクトでjava.awt.BufferedImageをインポートするにはどうすればよいですか?
- 11. CoffeeScriptでjavascriptライブラリをインポートするにはどうすればよいですか?
- 12. CentOS 6でcx_Oracleをインポートするにはどうすればよいですか?
- 13. uploadcareをreact.jsプロジェクトにインポートするにはどうすればよいですか?
- 14. ホワイトプロジェクトをIronPythonプログラムにインポートするにはどうすればよいですか?
- 15. Foldableクラスをモジュールにインポートするにはどうすればよいですか?
- 16. iGLUライブラリをxcodeにインポートするにはどうすればよいですか?
- 17. 大きなBufferGeometryをすばやく更新するにはどうすればよいですか?
- 18. mongoDBをDataikuデータセットにどのように接続すればよいですか?
- 19. Swing JComponentをより大きなマウスターゲットにするにはどうすればよいですか?
- 20. iTerm2プロファイルをインポートするにはどうすればよいですか?
- 21. Drupal 7:RSSフィードをインポートするにはどうすればよいですか?
- 22. 外部JavaScriptファイルをインポートするにはどうすればよいですか?
- 23. すべての列を同じように大きくするにはどうすればよいですか?
- 24. ボタンを大きくするにはどうすればいいですか
- 25. C#で非常に大きな辞書を使用するにはどうすればよいですか?
- 26. .NETで非常に大きな整数を表現するにはどうすればよいですか?
- 27. 改行時に消える大きなスペースを挿入するにはどうすればよいですか?
- 28. インポートのコンパイルを避けるにはどうすればよいですか?
- 29. Windowsで大きなページでアプリを実行するにはどうすればよいですか?
- 30. forloop.counterでDjangoテンプレートタグをより大きい値で使用するにはどうすればよいですか?
300個の機能を備えた500個のインスタンスは、通常、大きなデータセットとはみなされません。それにかかわらず、データの種類と形式を知らなくても、誰もあなたを本当に助けることはできません。 – bogatron
そのcsv形式と実数/数値データ型のUCIリポジトリからのクラス分類に使用したい不整脈データセット – ash11114
[numpy.loadtxt](http://docs.scipy.org/doc/numpy/reference/generated /numpy.loadtxt.html)。 – bogatron