0
現在のデータフレームで機械学習モデルを使用するには、いくつかの前処理ステップを適用する必要があります。これには、いくつかのカテゴリの列をStringIndexer
秒のインデックス列に変換し、新しい列をOneHotEncoder
秒でエンコードします。Apache Spark(複数の)インデクサーとエンコーダーをパイプラインに連結する方法
すべての変換メソッドをパイプラインに入れて永続化し、着信データに簡単に適用したいと考えています。ただし、インデックス付きの列はまだ存在しないため、エンコーダでfit()
メソッドを呼び出すと失敗します。
これらのすべての手順で構成されるパイプラインを作成するにはどうすればよいですか?