2017-06-24 3 views
0

私はtimeseriesclassification.comからデータセットをロードしようとしていますが、データセットは以前に見たことのない方法でフォーマットされています。次のように.csvファイルが見えPython、縦にスタックされた列見出し、@ relation、@ attribute、@ dataを持つデータセットをインポートする方法は?

@relation Wine 
@attribute att0 numeric 
@attribute att1 numeric 
@attribute target {1 2} 
@data 
0,1,1 
0,0,0 
1,0,0 

これは、データをフォーマットする方法です。

att0,att1,target 
0,1,1 
0,0,0 
1,0,0 

これは私の現在の戦略である:

  1. は、ファイルとファイルの読み込み( 'filename.csv)
  2. @dataは、すべてのヘッダを削除
  3. を表示されるまで、行の数を数えます
  4. 新しい列名を追加する

誰もこのデータセットのフォーマットのタイプを知っていますか?また、私は別のデータセット形式を参照できるリソースに誰かを指摘できます。

答えて

3

ARFFファイルを読むにはScipyのscipy.io.arff.loadarffを使用してください。

In [94]: from scipy.io.arff import loadarff 

In [95]: dataset = loadarff(open('filename.csv','r')) 

In [96]: df = pd.DataFrame(dataset[0], columns=dataset[1].names()) 

In [97]: df 
Out[97]: 
    att0 att1 target 
0 0.0 1.0  1 
1 0.0 0.0  0 
2 1.0 0.0  0 
関連する問題