で、データセット内の重複を見つける、私は文字列のデータセットでデータセットを持っており、それは私がデータセット内の重複行を把握したいデータScalaの
12348,5,233,234559,4
12348,5,233,234559,4
12349,6,233,234560,5
12350,7,233,234561,6
を持って、私はどのようにすることを行うのですか?私は重複を削除したいと思います。この例では、複製された行は12348,5,233,234559,4
であり、出力するインスタンスは1つだけです
どうやってそれをやりますか?
ありがとうございました。とても有難い。あなたは説明してください - (count、row)=> count +(row - >(count.getOrElse(row、0)+ 1))..私はscalaを初めて使っています。 – user3897533
'Map'はデータをメモリに保持しません。 :D – Dima
Hey @ user3897533、上記の説明で追加されました。 Scalaは扱いにくいです!ディマ、私はこれが記憶を使うことを理解する。どのくらい私は確信していたものです。線を取得するとイテレータが返され、折りたたむだけでイテレータが繰り返されるため、この操作を行うためにファイル全体が実際に格納されたとは思われませんでした。それは間違っていますか?また、私は肯定的ではなく、単に別の解決策を提示しているだけだと述べました。 –