ここでもう一度やります。pandasを使用してcsvファイルをインポートするヘッダー区切り文字を検出するread_csv
こんにちは、CSVファイルのエラーを検出しようとしています。
goodfile.csv
"COL_A","COL_B","COL_C","COL_D"
"ROW1COLA","ROW1COLB","ROW1COLC","ROW1COLD"
"ROW2COLA","ROW2COLB","ROW2COLC","ROW2COLD"
"ROW3COLA","ROW3COLB","ROW3COLC","ROW3COLD"
"ROW4COLA","ROW4COLB","ROW4COLC","ROW4COLD"
"ROW5COLA","ROW5COLB","ROW5COLC","ROW5COLD"
"ROW6COLA","ROW6COLB","ROW6COLC","ROW6COLD"
"ROW7COLA","ROW7COLB","ROW7COLC","ROW7COLD"
に従いますが、私が持っているファイルが実際に
brokenfile.csv
"COL_A","COL_B",COL C,"COL_D"
"ROW1COLA","ROW1COLB","ROW1COLC","ROW1COLD"
"ROW2COLA","ROW2COLB","ROW2COLC","ROW2COLD"
"ROW3COLA","ROW3COLB","ROW3COLC","ROW3COLD"
"ROW4COLA","ROW4COLB","ROW4COLC","ROW4COLD"
"ROW5COLA","ROW5COLB","ROW5COLC","ROW5COLD"
"ROW6COLA","ROW6COLB","ROW6COLC","ROW6COLD"
"ROW7COLA","ROW7COLB","ROW7COLC","ROW7COLD"
私はパンダ
data = pd.read_csv('goodfile.csv')
data = pd.read_csv('brokenfile.csv')
で2つのファイルをインポートすると私は同じを取得しているとして、ファイルが見えるはずです結果
data
COL_A COL_B COL_C COL_D
0 ROW1COLA ROW1COLB ROW1COLC ROW1COLD
1 ROW2COLA ROW2COLB ROW2COLC ROW2COLD
2 ROW3COLA ROW3COLB ROW3COLC ROW3COLD
3 ROW4COLA ROW4COLB ROW4COLC ROW4COLD
4 ROW5COLA ROW5COLB ROW5COLC ROW5COLD
5 ROW6COLA ROW6COLB ROW6COLC ROW6COLD
6 ROW7COLA ROW7COLB ROW7COLC ROW7COLD
とにかく、私が欲しいのは、現在COL_C
あなたは '引用を渡すことができます= 3' read_csv''にそうPANDそれらの文字は削除されませんが、両方のファイルは有効なcsvファイルです。私はパンダがエラーを起こす理由はないと思う。 – ayhan
ヘッダが二重引用符で囲まれていない場合のみ検出するのが目的ですか?一重引用符はどうですか?その他の「エラー」を検出する必要がありますか?また、同じ結果を得るべきではありません。一つのデータには「COL_C」と別の「COL C」があります。 – Jarad