私はスパークするのが新しいです、私は頻繁に(r._1 - >(r._2._1、r._2._2)のように、非常に複雑かもしれない別のタプルにタプルを変換することに絡み合っていることがわかりました。 r._3)、それと混同しました。これを改善する方法はありますか?spark rddの読みやすさを改善するには?
1
A
答えて
1
名前で列にアクセスできるDataFrame
を使用することをお勧めします。これにより、はるかに優れた読み取り可能なコードを生成することができます。また、これらのフレームは、非常に効率的であるだけでなく、スキーマ情報も含むパーケットファイルとして格納できます。操作は非常に効率的に実装され、RDD
に切り替えることはしばしば必要ではありません。
4
タプルを使用しないで、意味のあるケースクラスを定義します。代わりに
val rdd = sc.parallelize(Seq((1, "foo", (2, 2.0)), (2, "bar", (-1, 1.0))))
使用の
case class Meta(someValue: Int, anotherValue: Double) case class Record(x: Int, y: String, meta: Meta) val records = sc.parallelize(Seq( Record(1, "foo", Meta(2, 2.0)), Record(2, "bar", Meta(-1, 1.0)))) records.map(record => (record.meta.anotherValue, record.x))
あなたはタプルを使用している場合は、インデックス上で便利なバインディングとのパターンマッチングを好みます。
rdd.map { case (x, _, (_, anotherValue)) => (anotherValue, x) }
関連する問題
- 1. は、私は読みやすさを改善したいと
- 2. UITableviewの読み込みイメージを改善するには?
- 3. spark appのスピードを改善する
- 4. Facebookのアプリの読み込み時間を改善する
- 5. ページの読み込み時間を改善する
- 6. HTML5キャンバスイメージの読み込みを改善する
- 7. Spark 2.0を使用してRDDにcsvを読み取る
- 8. sc.textFile(APACHE SPARK RDD)を使用して読み込み中にカンマをエスケープする
- 9. C++による読み込みデータをUnreal Engineに改善
- 10. ロック、ペーパー、はさみの改善:Python 2.7?
- 11. react.jsで読み込み時間を改善できますか?
- 12. Sparkで既存のRDDにRDDを追加するには?
- 13. jQuery UIを改善するすべてのページロード用のajax読み込みダイアログ
- 14. ウェブコントロールの読み込みを改善しました
- 15. CodeIgniterを使用して、次のSQLコードまたはHTMLコードを読みやすくするために改良/改善することはできますか?
- 16. 2つのSparkコンテキスト間でSpark RDDを共有するには?
- 17. フラッシュを使用したhtmlページの読み込み時間を改善する
- 18. システム2でangle2アプリの読み込み時間の認識を改善する
- 19. sparkで2つのプリセットされたrddをマージするには?
- 20. Apache Spark RDDのコレクションを1つのRDDに変換するJava
- 21. アプリからマイクロアプリケーションを分岐して読み込み時間を改善する
- 22. 静的HTMLサイトの読み込み時間を改善するにはどうすればよいですか?
- 23. Cassandraの読み取り/書き込みパフォーマンスを改善するにはどうすればよいですか?
- 24. spark rddをpandasデータフレームに変換する
- 25. 列をRDDに追加するSpark 1.2.1
- 26. Spark RDD [Array [MyObject]]をRDDに変換する方法[MyObject]
- 27. SparkのケースクラスのRDDにデータフレームを戻す
- 28. シンプルアニメーションのスムーズさを改善する
- 29. アンドロイドのレイアウトを改善するには?
- 30. このミックスを改善するには