0
私はパンダデータフレームを持っています。このデータフレームには日付カラムがあり、フォーマットは '2016-01-17'でなければなりません。パンダのデータフレームの文字列チェック機能を最適化しますか?
時々、日付はジャンクで、「0-1274753-3」のように見えますが、これらの行を削除したい場合があります。
文字列が日付かどうかをチェックし、列内のすべての項目に適用して失敗した行を投げ捨てる機能を定義しようとしました。これは、大規模なデータフレーム全体では遅いプロセスであり、私はより良いソリューションを見つけることを望んでいます。
現在の試行は、次のようになります。
from dateutil.parser import parse
def is_date (string):
try:
parse (string)
return True
except ValueError:
return False
df = df [df.datecol.apply(is_date)]