불균일할 경우, 10% 이상의 이벤트 수준 요구
Decision Tree, Logistic Regression 알고리즘: 인스턴스 수가 있는 클래스에 편향이 있고, 소수 계층의 특징은 잡음으로 간주되어 무시되기도 함(오분류 가능성)
3.1 undersampling
장점: training set이 많을 때 샘플 수를 줄임으로써 저장 문제나 실행 속도 문제를 개설 할 수 있다.
단점: 분류기를 만들 때 중요한 정보를 누락할 수 있다. 랜덤 샘플링의 경우 정확한 대표성을 갖추지 못하면 부정확할 결과 야기
3.2 oversampling
- 소수 클래스 인스턴스 수 늘린다(단순 복사)
장점: 정보 손실 없고, 언더 샘플링보다 성능이 좋다
단점: 소수 클래서 복사하기 때문에 과적합 가능성 있음
3.3 SMOTE(Synthetic 인조 minority Over-sampling Technique)
- 소수 클래스의 정확한 복제본이 데이터셋에 더해질 때 발생하는 과적합을 피하기 위한 기술
- 소수 클래스에서 샘플 추출해 유사 합성 인스턴스 생성
장점: random 오버 샘플링으로 인한 과적합 문제를 인스턴스 복제보다는 합성 예제 생성으로 완화 + 유용한 데이터 손실 없음
단점: 클래스 겹침이나 추가 노이즈 발생 가능, 고차원 데이터에는 효과적이지 않을 수 있음

'DS > 통계' 카테고리의 다른 글
| 데이터 분할 (0) | 2023.03.01 |
|---|---|
| 데이터 샘플링 (0) | 2023.03.01 |
| [2019-객-5] 음이항 분포(Negative Binomial distribution) (0) | 2023.02.26 |
| IQR (0) | 2023.02.26 |
| [2021-객-14] 베르누이 정규 감마 베타 지수 분포 (0) | 2023.02.26 |