私はきれいなDFに取り掛かりたいトリッキーなログファイルを持っています。ログの形式は次のとおりです。破線のログをパンダのデータフレームに読み込みます
===============================================================================
2016/03/28 12:26:45 - Message
-------------------------------------------------------------------------------
2016/03/28 12:26:45 - Message
2016/03/28 12:26:45 - Message
Message
2016/03/28 12:26:45 - Message
2016/03/28 12:26:46 - Message
2016/03/28 12:26:46 - Message
2016/03/28 12:28:30 - Message
2016/03/28 12:28:40 - Message
2016/03/28 12:28:40 - Message
2016/03/28 12:28:40 - Message
-------------------------------------------------------------------------------
2016/03/28 12:28:40 - Message
===============================================================================
ログは上記のパターンで続き、私の目標は以下のデータフレームです。
Time Text
2016/03/28 12:26:45 Message
私はファイルファイルを ' - 'で解析し、Dataframeを作成して破線を削除するのに疲れました。私がNaN列の多くを得るしかし
import pandas as pd
from pandas.compat import StringIO
clean = open(filename).read().remove('-------------------------------------------------------------------------------', '')
clean2 = open(filename).read().replace('===============================================================================', '')
df = pd.read_csv(filename, sep = "\s*\-", names = ["Time", "Text"], engine = "python")
df.Time = pd.to_datetime(df.Time, format='%d/%m/%y %H:%M:%S.%f')
df.Text = df.Text
、任意のヘルプは、私はあなたがerrors='coerce'
でto_datetime
を使用するための場所NaT
列Time
に削除するためにdropna
でNaT
にすべての行を不正なデータを交換することができると思い
ダブルダッシュラインをファイルの先頭に、ファイルの末尾にのみですか? – jezrael
これらはすべてのセクションの最初と最後にあります。したがって、ログファイルにはダブルダッシュファイルのインスタンスが多数存在します。ログファイルは投稿で指定したパターンに従うため、このパターンはファイル内で複数回発生します@jezrael – ukbaz