Data Analysis2022. 10. 28. 02:12[데이터 분석] 라벨 불균형 처리

라벨의 불균형을 확인하고 불균형을 처리하는 방법은 다음과 같습니다! print(train['Class'].value_counts()) print(train['Class'].value_counts() / train['Class'].value_counts().sum() * 100) 방법은 크게 두가지가 있는데요! 샘플링 방법과 StratifiedKFold를 통해 라벨을 균일하게 한 뒤 학습을 시키는 방법입니다. 1. Sampling 방법 그중에 Oversampling 방법인 SMOTE 와 hybrid 방법인 SMOTE+ENN 방법이 있습니다. 저는 SMOTE+ENN 방법을 택하였습니다. 선택 이유: 데이터 클래스 비율이 너무 차이가 나면(highly-imbalanced data) 단순히 우세한 클래스를 택하..

image