データセットspark javaから特定のレコードを削除するには？

Apache Sparkのデータセットからレコードを削除する方法はありますか？それともそれを達成するための選択肢がありますか？データセットspark javaから特定のレコードを削除するには？

filterメソッドを使用して、これらのレコードを持たない新しいデータセットを作成できます。

データセットは変更できないため、変更することはできません（レコードを削除することはできません）。

2017-01-31 12:39:32

SparkのDataFramesは、本質的に不変のデータ構造であるという意味でRDDに似ています。したがって、この種の影響がSparkの不変のRDDの原則に反するため、新しい列の作成や行の削除、DataFrame内の単一の要素へのインデックスへのアクセスなどは存在できません。

ザ・のみ、ご希望のデータフレームにそれを変換するためのフィルタ

ヴァルDF = spark.read.json（「例/ srcに/メイン/テスト/ employee.json」）のような変換関数を使用しているあなたが行うことができると思います

// SQL一時ビュー df.createOrReplaceTempView（ "従業員"）

ヴァルsqlDF = spark.sql（ "SELECT * FROM社員とcustomer_id！= 002"）

としてデータフレームを登録しますこのタラを使う電子あなたは

をCUSTOMER_ID = 002を持つレコードを削除することができますし、ファイルまたはテーブルにフィルタレコードを書き込むことができますsqlDF.createOrReplaceTempView（「従業員」）//従業員ビューを作成

sqlDF.write.format（ "parquet"）。save（ "employee.parquet"）//寄木細工ファイルを保存します

2017-01-31 13:00:36

答えて