次の問題に関して私に助けてもらえますか?私は間違ったアラートを見つけるためにセキュリティログを分析しようとしています。誤ったアラートは「TXTが作成されていません」、「txtが作成されていません」が含まれるものです。データソースから特定の "txtが作成されていませんでした"(以下のサンプル入力データ)をどのように抽出できますか?python mapreduceを使用した誤った警告の特定
from mrjob.job import MRJob
class MRWordFrequencyCount(MRJob):
def mapper(self, _, line):
words = line.split()
for word in words:
word = unicode(word, "utf-8", errors="ignore")
yield word, 1
def reducer(self, key, values):
yield key, sum(values)
if __name__ == '__main__':
MRWordFrequencyCount.run()
サンプル入力が、ここで与えられます。
Mon Feb 1 12:13:59 EST 2016 virtual user etransactiondev started to upload file
/export/home/pub/etransactiondev/uploads/etransactionenvironment/ABC/rrd/in/WCWT.SMR.XYZ0002.PLSE.INPUT01.LFEP_APOL_D_M_20160201171358.TXT
/export/home/pub/etransactiondev/uploads/etransactionenvironment/ABC/rrd/in/WCWT.SMR.XYZ0002.PLSE.INPUT01.LFEP_APOL_D_M_20160201171358.txt was not created
"TXTが作成されていませんでした"、 "TXTが作成されていませんでした"がtrueです。 「TXT」と「txt」という単語の間違いは本当に違いますか? – DAXaholic