2016-04-24 18 views
0

次の問題に関して私に助けてもらえますか?私は間違ったアラートを見つけるためにセキュリティログを分析しようとしています。誤ったアラートは「TXTが作成されていません」、「txtが作成されていません」が含まれるものです。データソースから特定の "txtが作成されていませんでした"(以下のサンプル入力データ)をどのように抽出できますか?python mapreduceを使用した誤った警告の特定

from mrjob.job import MRJob 

class MRWordFrequencyCount(MRJob): 

def mapper(self, _, line): 
    words = line.split() 
    for word in words: 
     word = unicode(word, "utf-8", errors="ignore") 
     yield word, 1 

def reducer(self, key, values): 
    yield key, sum(values) 

if __name__ == '__main__': 
    MRWordFrequencyCount.run() 

サンプル入力が、ここで与えられます。

Mon Feb 1 12:13:59 EST 2016 virtual user etransactiondev started to upload file 
/export/home/pub/etransactiondev/uploads/etransactionenvironment/ABC/rrd/in/WCWT.SMR.XYZ0002.PLSE.INPUT01.LFEP_APOL_D_M_20160201171358.TXT 
/export/home/pub/etransactiondev/uploads/etransactionenvironment/ABC/rrd/in/WCWT.SMR.XYZ0002.PLSE.INPUT01.LFEP_APOL_D_M_20160201171358.txt was not created 
+0

"TXTが作成されていませんでした"、 "TXTが作成されていませんでした"がtrueです。 「TXT」と「txt」という単語の間違いは本当に違いますか? – DAXaholic

答えて

0

あなただけの最初の単語を確認することができますか?

word = word.split(' ') 
if word[0] == 'TXT': 
    do something... 
+0

お返事ありがとうございます。現在、私は入力ファイルからユーザー名を抽出しようとしています。あなたは入力行のようにユーザー名を抽出するのを手伝ってください:Mon Feb 1 12:13:59 EST 2016仮想ユーザーetransactiondevがファイルのアップロードを開始しました。私はetransactiondevを抽出する必要があります – Shiv

関連する問題