私はAmazonの弾性マップを使っています。PIGをHadoopで使用すると、不完全な数のグループとテキストの部分を正規表現するにはどうすればよいですか?
私は「foo」で式の中のすべての数字を選び出すために豚の式を書くことができますどのようにこの
random text foo="1" more random text foo="2"
more text notamatch="5" noise foo="1"
blah blah blah foo="1" blah blah foo="3" blah blah foo="4" ...
のようなものを見てログファイルを持っていますか?
私はこのような何かを見てタプルを好む:
(1,2)
(1)
(1,3,4)
私は次のことを試してみた:
TUPLES = foreach LINES generate FLATTEN(EXTRACT(line,'foo="([0-9]+)"'));
しかし、これは各行の最初の一致が得られます
(1)
(1)
(1)
を
はい、あなたは正しいです。残念ながら、私の例は、私が実際に一致させたくない他の数値式を実際に持っていることを示していないという点で誤解を招いていました。私は私の例をより具体的に更新しました。 – lmonson
これを行うにはPig UDFを使用できませんか? –