私はRDD [String、String]のペアを持っています。ここでkeyは文字列で、値はhtmlです。私はこのrddをn個のキーに基づいてn個のRDDSに分割し、それらをHDFSに格納したいと考えています。RDDを複数のRDDSに分割
htmlRDD = [key1,html
key2,html
key3,html
key4,html
........]
スプリットHDFS上の個々RDDからキーや店舗のHTMLに基づいて、このRDD。なぜ私はそれをしたいのですか?メインのRDDからhtmlをHDFSに保存しようとすると、出力コーディネータがコミットを拒否するため、時間がかかります。 私はScalaでこれをやっています。
htmlRDD.saveAsHadoopFile("hdfs:///Path/",classOf[String],classOf[String], classOf[Formatter])
htmlRDDにはいくつのパーティションとエグゼキュータが存在しますか?スパークがHDFSを照会して書き込むようになることがあります。しかし、スパークエグゼキュータがたくさんある場合にのみ発生する可能性があります。 – evgenii