2016-10-17 3 views
0

とサンプルデータフレームの生成:は、私がどのように見えるレコードのデータフレーム持っている制約

'Location' 'Rec ID' 'Duration'       'Rec-X' 
0  Houston  126   17 [0.2, 0.34, 0.45, ..., 0.28] 
1  Chicago  126  19.3 [0.12, 0.3, 0.41, ..., 0.39] 
2  Boston  348  17.3 [0.12, 0.3, 0.41, ..., 0.39] 
3  Chicago  138  12.3 [0.12, 0.3, 0.41, ..., 0.39] 
4 New York  238  11.3 [0.12, 0.3, 0.41, ..., 0.39] 
... 
500 Chicago  126  19.3 [0.12, 0.3, 0.41, ..., 0.39] 

と遺伝的アルゴリズムのプロセスの一環としての、私はレコードの人口(10)を初期化したいです。私はそれぞれのサブセットに10個のレコードを入れたいと思っていますが、同じ「Rec-ID」を2回入れないようにしたいと思います。

これらの10種類のデータフレームをどのように生成するかについてのご意見はありますか?

おかげで、

答えて

1

あなたはデータフレームから、あなたの列に基づいて重複をドロップして、あなたがランダムに10のユニークな要素 そして、何かを選択する場合は10個の要素

df2 = df.drop_duplicates('Rec ID') 
df2.head(10) 

EDIT にアクセスすることができますこのように動作します

def selectRandomUnique(df) : 
    d2 = df.sample(n=3).drop_duplicates('ID') 
    while len(d2) != 3 : 
     d2 = df.sample(n=3).drop_duplicates('ID') 
    return d2  

この先生あなたはランダムに行を選択し、存在する重複を削除します。

+0

残念ながら、これは私が必要とするものではありません。私は重複を削除したくない。私はちょうど10のレコードを含む各組み合わせで10のランダムな組み合わせを作成したいのですが、同じ「Rec ID」はありません。 –

+0

答えを更新しました。これは役に立ちます –

+0

はい!これはうまくいった。 –

関連する問題