2017-12-27 3 views
-1

私はジャンル分類を行う必要のあるデータセット(百万曲のデータセットに基づいています)を持っています。以下は、データセット内のさまざまなジャンルクラスの分布です。不均衡と呼ばれるデータセットはいつですか?

Genre Count %age 

1. Rock 115104 39.94364359 
2. Pop  47534 16.49535337 
3. Electronic 24313 8.437150809 
4. Jazz 16465 5.713720564 
5. Rap  15347 5.325749741 
6. RnB 13769 4.778148706 
7. Country 13509 4.687922933 
8. Reggae 8739 3.032627027 
9. Blues 7075 2.455182083 
10. Latin 7042 2.44373035 
11. Metal 6257 2.171317921 
12. World 4624 1.604630664 
13. Folk 3661 1.270448283 
14. Punk 3479 1.207290242 
15. New Age 1248 0.433083709 

このデータをアンバランスにしますか?私は周りを読んでみましたが、クラスの1つがデータセットの99%であり、バイナリ分類の問題がある場合、人々が不均衡なデータセットを記述していることがわかりました。上記のセットがこのカテゴリに該当するかどうかは不明です。助けてください。私は分類権を得ることができず、初心者はそれがデータか否かを判断できません。これは、私が検証し、検証する必要がある仮説の1つです。

答えて

0

一般に、不均衡なデータセットの厳密な定義はありませんが、最小のクラスが最大のクラスの10倍小さい場合は、不均衡と呼ばれることが一般的です。

あなたの場合、最小クラスは実際には最大クラスよりも100倍小さいので、バイナリ分類のための "99-1"の考慮にマップすることもできます。ニューエイジとロックの差別化について尋ねるだけであれば、99-1の不均衡に終わりますので、不均衡な分類に特有の問題がプロジェクトに現れることが予想されます。

関連する問題