私は一意の識別子と他の機能を持つデータセットを持っています。これは次のようになりますIDに戻って予測をマップする - Python Scikit Learn DecisionTreeClassifier
ID LenA TypeA LenB TypeB Diff Score Response 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
トレーニングデータとテストデータに分割しました。私はトレーニングデータを訓練したクラシファイアからテストデータを2つのクラスに分類しようとしています。私はの予測をIDにマップすることができるように、トレーニングとテストのデータセットに識別子を入れたいと思います。
Azure ML StudioやSASのようにID列または非予測変数として識別子列を割り当てる方法はありますか?
私はScikit-LearnのDecisionTreeClassifier
を使用しています。これは私が分類器に持っているコードです。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)
私はちょうどtraindata
にIDが含まれている場合は、コードでエラーが発生します:
ValueError: invalid literal for float(): 123-456
どのように電車/テストを分割していますか? – Grr
@Grr ..今のところ、半分に分割し、CSVをtraindataとtestdataとして別々に読み込んでいます。 – Minu