1
私は、データフレームの形式でコンテンツのストリームを取得しています。各バッチは、列の値が異なります。 例えば1つのバッチは、次のようになります。値を変更してデータフレームを一貫してホットエンコードする方法は?
day1_data = {'state': ['MS', 'OK', 'VA', 'NJ', 'NM'],
'city': ['C', 'B', 'G', 'Z', 'F'],
'age': [27, 19, 63, 40, 93]}
など別の1:
day2_data = {'state': ['AL', 'WY', 'VA'],
'city': ['A', 'B', 'E'],
'age': [42, 52, 73]}
は、どのように列は、列の一貫性の数を返すように、ホットエンコードすることができますか?
私はパンダのget_dummiesを使用する場合は()のバッチのそれぞれに、それは異なる数の列を返します。
df1 = pd.get_dummies(pd.DataFrame(day1_data))
df2 = pd.get_dummies(pd.DataFrame(day2_data))
len(df1.columns) == len(df2.columns)
私は、各列のすべての可能な値を得ることができ、質問にもその情報を使用することです毎日のバッチごとに1つのホットエンコーディングを生成する最も簡単な方法は何ですか?列の数は一貫していますか?
両方のデータソースには、「年齢」、「都市」、および「状態」という同じ列があります。\tこれはいつものケースですか?そうでない場合は、別の列でより現実的な例を提供してください。興味深い質問。 –
特定の列に含まれるすべての値を事前に知っていますか? – akilat90
なぜそれらを連結してからダミーを取得しないのですか? –