ランダムフォレストのトレーニングセットのクラスラベルを保持するデータフレームにdouble
型の列があります。
another questionで提案されているように、データフレームをStringIndexer
に渡す必要がないように、手動でメタデータを列に添付します。
これを行う最も簡単な方法は、Column
のas
メソッドを使用することです。
しかし、このメソッドはPythonでは利用できません。
簡単な回避策はありますか?pysparkの二重列にメタデータを添付する方法
簡単な回避策がなく、最良の方法がPythonポートas
である場合、その方法はなぜPythonに移植されないのですか?
難しい技術的な理由はありますか?単にPythonのas
キーワードと衝突するだけでなく、誰もそれを移植することを誰も志んでいないからです。
source codeを見て、Pythonのalias
メソッドがScalaのas
メソッドを内部的に呼び出していることがわかりました。