2017-01-10 5 views
0

私はスパーク1.4コードを使用していますが、今度は2.0にアップグレードする予定です。以下のドキュメントをチェックすると、後方互換性のある機能がいくつかあります。私のコードのほとんど?スパークバックワードとの互換性1.6対2.0

  • 統一DATAFRAMEおよびデータセット::スパーク2.0における最大の変化の

    一つは、新しい更新されたAPIであるスカラ座やJava、データフレームおよびデータセットで統一されている、すなわちデータフレームは、ちょうどタイプの別名であります 行のデータセットPythonとRでは、型の安全性が欠けているので、 DataFrameがメインプログラミングインターフェイスです。

  • SparkSession:DataFrameおよびDataset APIの古いSQLContextおよびHiveContextを置き換える新しいエントリポイントSQLContextと HiveContextは下位互換性のために保持されています。コメントは、スパークで述べたように
  • SparkSession
  • シンプル、よりパフォーマンスアキュムレータAPI
  • 新規のための新しい、合理化構成API、データセット
+1

*私は自分のコードのほとんどが変更されていることを意味します* - まあ、ドキュメントを読んだだけではそうです。 –

+0

@T.Gawęda私はOPの質問を得るのか分からない。スパークする移行ガイドがあります。 http://spark.apache.org/docs/latest/sql-programming-guide.html#migration-guide – eliasah

+1

@eliasah私は「Spark 2で動作させるためにコードの多くを書き直す必要がありますか? "マイグレーションガイドは非常に良いリファレンスです、それと答えを返す:)答えはもちろん "それに依存する"が、より正確です:P –

答えて

3

に入力した集約のためのアグリゲータAPIを改善に従う移行ガイドがあります。あなたはそれを確認することができますhere

文書に引用されている内容を除いて、1.6と2.0の間に大きな変更はありません。

質問に答えるために、私は「それは依存している」と言っています。例えば

は最近、私は1.6.3から2.0.2に、私はMLLib migration guideに記載されている場所をしなければならなかった唯一の変更機械学習アプリケーションを移行する必要がありました。