私はスパーク1.4コードを使用していますが、今度は2.0にアップグレードする予定です。以下のドキュメントをチェックすると、後方互換性のある機能がいくつかあります。私のコードのほとんど?スパークバックワードとの互換性1.6対2.0
- 統一DATAFRAMEおよびデータセット::スパーク2.0における最大の変化の
一つは、新しい更新されたAPIであるスカラ座やJava、データフレームおよびデータセットで統一されている、すなわちデータフレームは、ちょうどタイプの別名であります 行のデータセットPythonとRでは、型の安全性が欠けているので、 DataFrameがメインプログラミングインターフェイスです。
- SparkSession:DataFrameおよびDataset APIの古いSQLContextおよびHiveContextを置き換える新しいエントリポイント。 SQLContextと HiveContextは下位互換性のために保持されています。コメントは、スパークで述べたように
- SparkSession
- シンプル、よりパフォーマンスアキュムレータAPI
- 新規のための新しい、合理化構成API、データセット
*私は自分のコードのほとんどが変更されていることを意味します* - まあ、ドキュメントを読んだだけではそうです。 –
@T.Gawęda私はOPの質問を得るのか分からない。スパークする移行ガイドがあります。 http://spark.apache.org/docs/latest/sql-programming-guide.html#migration-guide – eliasah
@eliasah私は「Spark 2で動作させるためにコードの多くを書き直す必要がありますか? "マイグレーションガイドは非常に良いリファレンスです、それと答えを返す:)答えはもちろん "それに依存する"が、より正確です:P –