巨大なテキストファイルの単語を数える必要がありますが、その前に特殊なファイルを特定の方法で消去する必要があります。例えばファイル内の単語を数えながら単語の先頭と末尾の特殊文字を削除する
-
;xyz --> xyz
xyz: --> xyz
xyz!) --> xyz!
私は()のスペース上のすべての単語を分割するflatMapを使用しています。そして、私は動作していない特殊文字を削除しようとしています。助けてください!ここで
は---私が使用していたコードである削除する文字です - ; ! ? ()。
>>> input = sc.textFile("file:///home/<...>/Downloads/file.txt")
>>> input2 = input.flatMap(lambda x: x.split())
>>> def remove(x):
if x.endsWith(':'):
x.replace(':','')
return x
elif x.endsWith('.'):
x.replace('.','')
return x
。 。
>>> input3 = input2.map(lambda x: remove(x))
それが動作しないのはなぜ?あなたが試したものを投稿してください。 –
3番目の例では "!"文字は特殊な文字ではありませんか? – EbraHim
特殊文字とは何ですか? – Saleem