1
Spark(Scalaを使用)のRDDにcsvファイルを読み込もうとしています。私はヘッダを考慮しないようにデータを最初にフィルタリングする機能を作っています。Spark Scalaのタスクがシリアライズできないエラー
def isHeader(line: String): Boolean = {
line.contains("id_1")
}
、その後、私は、次のコマンドを実行しています:
val noheader = rawblocks.filter(x => !isHeader(x))
をrawblocks RDDはサイズ
に、私はタスク直列化可能ではないエラーを取得しています26メガバイトであるcsvファイルからデータを読み込みます。何が解決策になりますか?
[mcve]の作成方法。 – zero323
詳細を追加してください。 – Abhi
上記と同じです。 TaskNotSerializableは、関数が呼び出されたクラス内の何かがシリアル化可能でないことを意味します。あなたが外側のコードをもっと提供すれば、私たちは助けることができます。また、あなたのスタックは、どのクラスがシリアライズ可能でないのかを言うべきです。 –