私はcsvから多変数回帰に取り組んでおり、複数の要因に基づいて作物のパフォーマンスを予測しています。私の列の中には数値的で意味のあるものがあります。他のものは、数値的で分類的なもの、文字列で分類されたもの(例えば、作物の種類やプロットコードなど)です。Pythonにそれらを使用するように教えるにはどうすればいいですか? One Hot Encoder(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder)を見つけましたが、実際にここに適用する方法を理解していません。これまでPython SciKitLearn and Pandasカテゴリデータ
マイコード:
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler
df = pd.read_csv('filepath.csv')
df.drop(df[df['LabeledDataColumn'].isnull()].index.tolist(),inplace=True)
scale = StandardScaler()
pd.options.mode.chained_assignment = None # default='warn'
X = df[['inputColumn1', 'inputColumn2', ...,'inputColumn20']]
y = df['LabeledDataColumn']
X[['inputColumn1', 'inputColumn2', ...,'inputColumn20']] = scale.fit_transform(X[['inputColumn1', 'inputColumn2', ...,'inputColumn20']].as_matrix())
#print (X)
est = sm.OLS(y, X).fit()
est.summary()
をやっデータにモデルを呼び出しますカテゴリデータの場合は、scikit learnのラベルエンコーダ(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncod er.html) –
@KevinK。ありがとう!あなたが私に尋ねる気にならないなら、私はこの例にどのように適用しますか? –
新しいラベルエンコーダ 'le = LabelEncoder()'を作成し、データ 'le.fit(df ['SomeColumn'])'に適合させ、データ 'df ['SomeColumn'] = le.transform(df [ 'SomeColumn']) ' –