지도학습 > 분류

1. 분류분석

1.1 의사결정나무

- 종속변수(Y)가 연속형일때는 mean/median 으로 설정

- 설명변수(X)가 연속형일때 낮은 예측 능력

- 자료의 추가에 의해 나무구조가 바뀔 수 있음

- 비선형데이터에는 적합하지 못함(데이터 구분을 위해 이진분할 하기 때문에 독립-종속변수가 선형적일때 적합)

1.1.1 형성과정

- 성장 > 가지치기 > 타당성 평가 > 해석 및 예측

- 타당성 평가: 이익도표나 위험도표 또는 검증용 데이터를 이용하여 의사결정 나무 평가

- 이익도표: 모델의 예측값에 따른 이익(혹은 손실)을 계산하여 표로 나타낸 것

- 위험도표: 모델의 예측값에 따른 위험(혹은 성공 확률)을 계산하여 표로 나타낸 것

※ C5.0 알고리즘의 장점: 가지치기의 최적화

※ 활용: 차원축소, 변수선택, 교호작용효과파악(여러 예측변수 결합해 목표변수 작용 규치 파악)

1.1.2 순도측정방법

- 순도: 데이터 균일 정도(데이터가 하나의 범주면 pure)

1) 엔트로피 지수(entropy index) - 작아지는 방향(불순도 감소)으로 분할 수행

- 분기 전과 후의 엔트로피 변화 확인

- 엔트로피 증가= 불확실성 증가 = 순도 감소 = 정보 손실 => 분할하지 않는 것이 낫다고 판단함(1이면 다종성 최대값)

- 엔트로피 감소 = 불확실성 감소 = 순도 증가 = 정보 획득 => 분할한것이 낫다고 판단함(0이면 표본 완전히 하나)

2) 지니지수(gini index) - 작아지는 방향으로 분할 수행

3) 카이제곱 통계량(chi-square statistic) - 커지는 방향으로 분할 수행

- (-)값은 작을수록 자식 노드간의 이질성이 크다

1.1.3 알고리즘

CART(Classification and Regression Tree)	C4.5 C5.0	CHAID(Chi-square Automatic Interation Detection)
이진분리	다진분리
범주형: 지니 연속형: 분산	엔트로피	카이제곱 통계량
개별입력 뿐 아니라 입력변수 선형결합 중 최적 분리 찾을 수 있음	5.0 다양한 문제 잘 작동	입력변수 반드시 범주형 가지치기 하지 않고 적당한 크기 나무 성장 중지

1.2 로지스틱 회귀분석(일반적으로 범주가 두개인 이항형 문제)

- 독립변수의 선형 결합을 이용, 사건의 발생 가능성을 예측하는 통계 기법

- 다항 로지스틱 회귀(multinomial logistic regression) or 분화 로지스틱 회귀(polytomous logistic regression): 두 개 이상의 범주를 가지는 문제가 대상

- 서수 로지스틱 회귀(ordinal logistic regression): 복수 범주면서 순서가 존재

1.2.1 정의 및 종류

1.3 앙상블

1.3.1 랜덤포레스트

- 임의 노드 최적화(Randomized node optimization): 분석에 사용될 데이터를 랜덤하게 추출

- 장점: 과적합 없음(bias는 유지되고 variance는 감소되어 정확도가 높음)

멀티코어 프로세스 이용 병렬처리 가능함으로 빅데이터 시스템에 적합

별도 튜닝(스케일 조정)없이도 성능 우수

- 단점: 임의 데이터 생성으로 처리 데이터가 대용량이 되어 처리시간 증가

설명력 부족(변수 중요도는 제공되며, 불순도의 감소량으로 판단)

- Decision Tree vs Random Forest 차이점

별도 test data 없어도 모델이 OOB 과정에서 제외된 자료 오류율 계산

1.3.2 부스팅

- 표본을 구성하는 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중치를 두어 표본 추출하여 모델에 넣는 방법

1.4 나이브 베이즈

- 조건부 확률을 계산하여 분류하고자 하는 대상의 각 분류별 확률을 측정하여, 그 확률이 큰 쪽으로 분류하는 알고리즘

- 장점: 쉽고 처리 속도 빠름, 분류 분석에 용이

변수들이 서로 독립일 때 다른 모델보다 좋은 성능

연속형보다 범주형 변수에 적합, 연속형인 경우 정규분포 가정함

- 단점: 훈련 데이터에 없는 새로운 데이터가 들어올 경우 분류가 되지 않음(조건부 확률이 0이기 때문에)

ㄴ smoothing 기술을 사용하여 보정(laplace estimation)

변수들끼리의 독립성이 보장되면 좋은 성능이 나지만 현실에서 보장하기 힘든 조건임

- 활용: 실시간 분류 필요, 텍스트 분석(분류, 스팸 필터링, 감성 분석), 추천시스템

1.5 KNN

- K의 역할은 몇 번째로 가까운 데이터까지 살펴볼 것인가를 정한 숫자

1.6 SVM(Support Vector Machine)

- 서로 다른 데이터를 가장 크게 분류하는 선을 찾는 분석 방법

- margin: 두 데이터 군과 결정경계와 가장 떨어져 있는 정도(여백)

- support vector: 두 클래스 사이의 경계에 위치한 데이터 포인트 들(점선 위에 있는 데이터들)

결정경계를 지지(support)하고 있다고 말할 수 있으므로 support vector

- 결정경계(or 분리 초평면): 클래스가 다른 데이터들을 가장 큰 margin으로 분리해내는 선 또는 면 데이터 공간의 차원보다 한 차원 아래

1.6.1 선형 SVM (outlier 존재)

1.6.1.1 Cost(C)

- Outlier가 존재하여 데이터를 선형적으로 완벽하게 분리할 수 없을 때 약간의 오류를 허용하는 파라미터

- 얼마나 많은 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는지를 결정

- 낮은 C: 이상치를 많이 허용. 일반적인 분류 경계를 찾아줌, 너무 낮으면 과소적합 가능성 커짐

- 높은 C: 이상치를 적게 허용. 분류 정확도 높지만, 과대적합 가능성 커짐

1.6.1.2 선형 SVM 한계

- 커널 필요성

1.6.2 kernel SVM

1.6.2.1 커널 기법

- 주어진 데이터를 고차원 특징 공간으로 사상해주는 것

1.6.2.2 커널 종류

- olynomial, sigmoid, 가우시안 rbf

- 가장 성능이 좋아 자주 사용하는 것: 가우시안 rbf

- 각 커널마다 최적화 도와주는 매개변수 존재

1.6.2.3 RBF 커널

- gamma 매개변수 존재

- gamma 역할: 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정

- gamma: 가우시안 함수의 표준편차와 관련되어 있고, 클수록 작은 표준편차 갖음

- 결정경계의 곡률 결정

1.6.2.4 RBF 커널 SVM

- SVM 알고리즘 중 가장 성능이 좋고 일반적으로 사용하는 알고리즘

- 좋은 성능을 위해 매개변수 C, gamma 잘 조정 필요

- C는 데이터 샘플들이 다른 클래스에 놓이는 것을 허용하는 정도를 결정, gamma는 결정 경계의 곡률을 결정

- 두 값 모두 커질 경우, 알고리즘 복잡도 증가

1.6.2.5 장단점

- 장점: 에러율 낮음, 계산량 많지 않음, 결과 해석 용이

- 단점: 튜닝 파라미터 및 커널 선택에 민감, 선천적으로 이진분류만 다룰 수 있음

1.7 인공신경망(ANN)

'DS > 모델' 카테고리의 다른 글

ing 지도학습 > 회귀 (0)	2023.03.03
[2019-객-6] 로지스틱 회귀 & 시그모이드 함수 - 최대우도추정법(Maximum Likelihood Estimation, MLE) (0)	2023.02.25
트리 - 회귀 (0)	2023.02.25
비지도 (0)	2023.02.22
GBM vs XGB vs LightGBM (0)	2023.02.12

okso6441

지도학습 > 분류

'DS > 모델' 카테고리의 다른 글

티스토리툴바

지도학습 > 분류

'DS > 모델' 카테고리의 다른 글

관련글

티스토리툴바