私はジャンル分類を行う必要のあるデータセット(百万曲のデータセットに基づいています)を持っています。以下は、データセット内のさまざまなジャンルクラスの分布です。不均衡と呼ばれるデータセットはいつですか?
Genre Count %age
1. Rock 115104 39.94364359
2. Pop 47534 16.49535337
3. Electronic 24313 8.437150809
4. Jazz 16465 5.713720564
5. Rap 15347 5.325749741
6. RnB 13769 4.778148706
7. Country 13509 4.687922933
8. Reggae 8739 3.032627027
9. Blues 7075 2.455182083
10. Latin 7042 2.44373035
11. Metal 6257 2.171317921
12. World 4624 1.604630664
13. Folk 3661 1.270448283
14. Punk 3479 1.207290242
15. New Age 1248 0.433083709
このデータをアンバランスにしますか?私は周りを読んでみましたが、クラスの1つがデータセットの99%であり、バイナリ分類の問題がある場合、人々が不均衡なデータセットを記述していることがわかりました。上記のセットがこのカテゴリに該当するかどうかは不明です。助けてください。私は分類権を得ることができず、初心者はそれがデータか否かを判断できません。これは、私が検証し、検証する必要がある仮説の1つです。