2016-05-04 8 views
-1

私はデータフレームにロジスティック回帰を実行しています。スパークのロジスティック回帰関数は不可分なものを取り入れません。私はそれを変換しています。pysparkに変換された列を追加する

私は文字列インデクサ変換器を使用しています。

indexer=StringIndexer(inputCol="classname",outputCol="ClassCategory") 

この変換列をデータフレームに追加したいと考えています。 df.withColumnは、オブジェクトインデクサーが列ではないため、それを許可しません。

変換して追加する方法はありますか。 Spark ML Documentationの例に見られるように

+0

多分このリンクの例はあなたを助けることができます:https://spark.apache.org/docs/latest/ml-features.html#stringindexer –

+0

こんにちは私はリンクを通過し、最も効率的な方法としてstringIndexerを見つけました私の文字列値のインデックスを作成してモデルに入力します。しかし、私はまだ私のデータフレームにインデックステーブルを参加させるのです。 –

+0

'indexed = indexer.fit(df).transform(df)'を試してみましたか? –

答えて

1

、あなたは次のことを試すことができます。

// Original data is in "df" 
indexer = StringIndexer(inputCol="classname",outputCol="ClassCategory") 
indexed = indexer.fit(df).transform(df) 
indexed.show() 

indexedオブジェクトは、「ClassCategory」(outputColとして渡された名前)と呼ばれる新しい列を持つデータフレームになります。

関連する問題