正規表現とパンダの適用は、必要なものを達成する必要があります。私は、最初のタイムスタンプと2番目のタイムスタンプの間のテキストのみを必要としていると仮定しています。あなたのメッセージでデータフレームを作成しましたが、2番目のメッセージフレームは2から始まります。>(.+?)<
では、>
と<
で囲まれた任意の数の文字を正規表現で検索します。 ?
は貪欲でないので、最初のタイムスタンプから最後までずっと進み、最初の試合で止まるわけではありません。以下
サンプルコード:
import pandas as pd
import re
data = pd.DataFrame({"id":[1,2],"ticket_desc":[r"<GMT2015-09-01 00:03:29GMT> Hi Rajiv, As part of our job Request for your approval. Thanks <GMT2015-09-01 19:08:15GMT> Hi Ram, Request Approved Thanks <GMT2015-09-01 19:08:15GMT>.",r"<GMT2015-09-01 00:03:29GMT> 2Hi Rajiv, As part of our job Request for your approval. Thanks <GMT2015-09-01 19:08:15GMT> Hi Ram, Request Approved Thanks <GMT2015-09-01 19:08:15GMT>."]})
def finder(x):
return re.findall(">(.+?)<",x)[0]
data["ticket_desc"] = data["ticket_desc"].apply(finder)
print data["ticket_desc"][0]
print data["ticket_desc"][1]
出力:
Hi Rajiv, As part of our job Request for your approval. Thanks
2Hi Rajiv, As part of our job Request for your approval. Thanks
はこれらは私が下のそれのコピーを貼り付けてみましょう、別々の列ではありません。 –
データではない場合、あなたのcsvのサンプルを追加することは可能ですか?confidental?もし私がよく分かっていれば、日付スタンプHi、 -------------- -------------- datestampこんにちは、 ----- --------- -------------- datestampこんにちは、 -------------- ------ -------- datestampこんにちは、 -------------- -------------- datestamp'は1行にあります'DataFrame'? – jezrael