2012-12-13 9 views
6

私はPythonで入力データファイルを消去する必要があります。入力ミスのため、データフィールドに数字の代わりに文字列が含まれることがあります。私は、文字列であるすべてのフィールドを識別し、これらをpandasを使用してNaNで埋めたいと思います。また、これらのフィールドのインデックスを記録したいと思います。大きなデータをPythonでクリーニングする

最も重大な方法の1つは、各フィールドをループして数字かどうかをチェックすることですが、データが大きい場合は時間がかかります。

Country Count Sales 
USA   1 65000 
UK   3 4000 
IND   8  g 
SPA   3 9000 
NTH   5 80000 

.... iがデータで60,000、このような行を持っていると仮定します。

私のcsvファイルは、以下の表と同様のデータが含まれています。

理想的には、行INDの値がSALES列で無効であることを確認したいと考えています。これを効率的に行う方法に関する提案はありますか?

+5

'60000'行を持つファイルをループしてはなりません非常に長くかかります。その方法で費やされた時間はほとんど目に見えません。試行したことと、実際にコンピュータに重大な負荷がかかることを示すベンチマークを示すことはできますか? – mgilson

+0

時間がかかる場合は、マルチプロセッシングモジュールを使用しますが、実際には編集する必要のある行数に応じて数秒以上かかることはありません。 – sean

答えて

関連する問題