パンダのデータフレームの2つの列をnumpy配列に変換して、機械学習の問題のための機能とラベルとして使用しました。どのように対応する機能を元に戻すことができますか?
コード:
train_index, test_index = next(iter(ShuffleSplit(len(labels), train_size=0.2, test_size=0.80, random_state=42)))
features_train, features_test, = X[train_index], X[test_index]
labels_train, labels_test = labels[train_index], labels[test_index]
clf = DecisionTreeClassifier()
clf.fit(features_train, labels_train)
pred = clf.predict(features)
print pred
特長は、現在、周波数カウントの配列(私はフィットし、私のオリジナルパンダのデータフレームの列を変換するために、以前のCountVectorizerを使用)です。私はpredとして保存されたラベルの完全なリストを持っていますが、私は自分のパンダのデータフレームにラベルのリストを返すことができるように、それぞれのラベルに対応する機能が欲しいです。
て戻ってあなたのサンプルを変換するために使用することができ
それを使用しました(train and test)し、結果の値を変数features_ *に入れます。あなたのサンプル、機能を呼んでいるようです。これは機械学習の大きなノー・ノーです!フィーチャはデータセットの属性です。通常は列です。したがって、このコードを読むことは非常に混乱します。しかし、あなたが "フィーチャ"(あなたの行列(サンプル、フィーチャ)であると仮定している)を予測するので、結果の配列predを正しく並べ替えることができます。 –
Hmm。私のサンプルは本質的に私の特徴です。なぜなら、私はそれらのサンプルに似ているラベル(私はそれらのサンプル/サンプルに似ています)以外の情報はありませんから、私はこのMLプロセスをサンプルを対応するラベルに保存することができます。コードを同じにして、@lejlotの答えを使用してOKにできますか? –