0
私は5列の100万レコードのデータフレームを持っています。パンダ:頻度分布に基づいてパワーロウに続くデータフレームの列を2つに分割する方法は?
unique_index,name,company_name,city_id,state_id
欄company_name
には100k個の固有レコードがあります。これは権力の法則に従います。トップ5000 company_names
はレコードの70%をカバーしています。
私は、データの先頭5000に、残りのセットから貢献する企業からのサンプルの数と同じ数を取りたいです。
私はpd.qcut(df['company_name'],[0.25,1]
を試しました。これは私に以下のエラーを与えました: TypeError: unorderable types: str() <= float()
。 qcut
は文字列に適用できませんか?
はありがとうございグループからサンプリングすることが可能になる:私は、それは次のようになりますと思います。 Qcutは文字列では機能しません。 – user1930402