본문 바로가기
DS/통계

데이터 리샘플링

by okso6441 2023. 3. 1.

불균일할 경우, 10% 이상의 이벤트 수준 요구

 

Decision Tree, Logistic Regression 알고리즘: 인스턴스 수가 있는 클래스에 편향이 있고, 소수 계층의 특징은 잡음으로 간주되어 무시되기도 함(오분류 가능성) 


3.1 undersampling

장점: training set이 많을 때 샘플 수를 줄임으로써 저장 문제나 실행 속도 문제를 개설 할 수 있다.

단점: 분류기를 만들 때 중요한 정보를 누락할 수 있다. 랜덤 샘플링의 경우 정확한 대표성을 갖추지 못하면 부정확할 결과 야기


3.2 oversampling

- 소수 클래스 인스턴스 수 늘린다(단순 복사)

장점: 정보 손실 없고, 언더 샘플링보다 성능이 좋다

단점: 소수 클래서 복사하기 때문에 과적합 가능성 있음 


3.3 SMOTE(Synthetic 인조 minority Over-sampling Technique)

- 소수 클래스의 정확한 복제본이 데이터셋에 더해질 때 발생하는 과적합을 피하기 위한 기술

- 소수 클래스에서 샘플 추출해 유사 합성 인스턴스 생성 

장점: random 오버 샘플링으로 인한 과적합 문제를 인스턴스 복제보다는 합성 예제 생성으로 완화 + 유용한 데이터 손실 없음

단점: 클래스 겹침이나 추가 노이즈 발생 가능, 고차원 데이터에는 효과적이지 않을 수 있음 

 

'DS > 통계' 카테고리의 다른 글

데이터 분할  (0) 2023.03.01
데이터 샘플링  (0) 2023.03.01
[2019-객-5] 음이항 분포(Negative Binomial distribution)  (0) 2023.02.26
IQR  (0) 2023.02.26
[2021-객-14] 베르누이 정규 감마 베타 지수 분포  (0) 2023.02.26