
1. 분류분석
1.1 의사결정나무
- 종속변수(Y)가 연속형일때는 mean/median 으로 설정
- 설명변수(X)가 연속형일때 낮은 예측 능력
- 자료의 추가에 의해 나무구조가 바뀔 수 있음
- 비선형데이터에는 적합하지 못함(데이터 구분을 위해 이진분할 하기 때문에 독립-종속변수가 선형적일때 적합)
1.1.1 형성과정
- 성장 > 가지치기 > 타당성 평가 > 해석 및 예측
- 타당성 평가: 이익도표나 위험도표 또는 검증용 데이터를 이용하여 의사결정 나무 평가
- 이익도표: 모델의 예측값에 따른 이익(혹은 손실)을 계산하여 표로 나타낸 것
- 위험도표: 모델의 예측값에 따른 위험(혹은 성공 확률)을 계산하여 표로 나타낸 것
※ C5.0 알고리즘의 장점: 가지치기의 최적화
※ 활용: 차원축소, 변수선택, 교호작용효과파악(여러 예측변수 결합해 목표변수 작용 규치 파악)
1.1.2 순도측정방법
- 순도: 데이터 균일 정도(데이터가 하나의 범주면 pure)

1) 엔트로피 지수(entropy index) - 작아지는 방향(불순도 감소)으로 분할 수행
- 분기 전과 후의 엔트로피 변화 확인
- 엔트로피 증가= 불확실성 증가 = 순도 감소 = 정보 손실 => 분할하지 않는 것이 낫다고 판단함(1이면 다종성 최대값)
- 엔트로피 감소 = 불확실성 감소 = 순도 증가 = 정보 획득 => 분할한것이 낫다고 판단함(0이면 표본 완전히 하나)
2) 지니지수(gini index) - 작아지는 방향으로 분할 수행
-
3) 카이제곱 통계량(chi-square statistic) - 커지는 방향으로 분할 수행
- (-)값은 작을수록 자식 노드간의 이질성이 크다
1.1.3 알고리즘

| CART(Classification and Regression Tree) | C4.5 C5.0 | CHAID(Chi-square Automatic Interation Detection) |
| 이진분리 | 다진분리 | |
| 범주형: 지니 연속형: 분산 |
엔트로피 | 카이제곱 통계량 |
| 개별입력 뿐 아니라 입력변수 선형결합 중 최적 분리 찾을 수 있음 | 5.0 다양한 문제 잘 작동 | 입력변수 반드시 범주형 가지치기 하지 않고 적당한 크기 나무 성장 중지 |
1.2 로지스틱 회귀분석(일반적으로 범주가 두개인 이항형 문제)
- 독립변수의 선형 결합을 이용, 사건의 발생 가능성을 예측하는 통계 기법
- 다항 로지스틱 회귀(multinomial logistic regression) or 분화 로지스틱 회귀(polytomous logistic regression): 두 개 이상의 범주를 가지는 문제가 대상
- 서수 로지스틱 회귀(ordinal logistic regression): 복수 범주면서 순서가 존재
1.2.1 정의 및 종류


1.3 앙상블
1.3.1 랜덤포레스트
- 임의 노드 최적화(Randomized node optimization): 분석에 사용될 데이터를 랜덤하게 추출
- 장점: 과적합 없음(bias는 유지되고 variance는 감소되어 정확도가 높음)
멀티코어 프로세스 이용 병렬처리 가능함으로 빅데이터 시스템에 적합
별도 튜닝(스케일 조정)없이도 성능 우수
- 단점: 임의 데이터 생성으로 처리 데이터가 대용량이 되어 처리시간 증가
설명력 부족(변수 중요도는 제공되며, 불순도의 감소량으로 판단)
- Decision Tree vs Random Forest 차이점

1.3.2 부스팅
- 표본을 구성하는 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중치를 두어 표본 추출하여 모델에 넣는 방법

1.4 나이브 베이즈
- 조건부 확률을 계산하여 분류하고자 하는 대상의 각 분류별 확률을 측정하여, 그 확률이 큰 쪽으로 분류하는 알고리즘

- 장점: 쉽고 처리 속도 빠름, 분류 분석에 용이
변수들이 서로 독립일 때 다른 모델보다 좋은 성능
연속형보다 범주형 변수에 적합, 연속형인 경우 정규분포 가정함
- 단점: 훈련 데이터에 없는 새로운 데이터가 들어올 경우 분류가 되지 않음(조건부 확률이 0이기 때문에)
ㄴ smoothing 기술을 사용하여 보정(laplace estimation)
변수들끼리의 독립성이 보장되면 좋은 성능이 나지만 현실에서 보장하기 힘든 조건임
- 활용: 실시간 분류 필요, 텍스트 분석(분류, 스팸 필터링, 감성 분석), 추천시스템
1.5 KNN
- K의 역할은 몇 번째로 가까운 데이터까지 살펴볼 것인가를 정한 숫자




1.6 SVM(Support Vector Machine)
- 서로 다른 데이터를 가장 크게 분류하는 선을 찾는 분석 방법
- margin: 두 데이터 군과 결정경계와 가장 떨어져 있는 정도(여백)
- support vector: 두 클래스 사이의 경계에 위치한 데이터 포인트 들(점선 위에 있는 데이터들)
결정경계를 지지(support)하고 있다고 말할 수 있으므로 support vector
- 결정경계(or 분리 초평면): 클래스가 다른 데이터들을 가장 큰 margin으로 분리해내는 선 또는 면 데이터 공간의 차원보다 한 차원 아래

1.6.1 선형 SVM (outlier 존재)
1.6.1.1 Cost(C)
- Outlier가 존재하여 데이터를 선형적으로 완벽하게 분리할 수 없을 때 약간의 오류를 허용하는 파라미터
- 얼마나 많은 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는지를 결정
- 낮은 C: 이상치를 많이 허용. 일반적인 분류 경계를 찾아줌, 너무 낮으면 과소적합 가능성 커짐
- 높은 C: 이상치를 적게 허용. 분류 정확도 높지만, 과대적합 가능성 커짐
1.6.1.2 선형 SVM 한계
- 커널 필요성

1.6.2 kernel SVM
1.6.2.1 커널 기법
- 주어진 데이터를 고차원 특징 공간으로 사상해주는 것
1.6.2.2 커널 종류
- olynomial, sigmoid, 가우시안 rbf
- 가장 성능이 좋아 자주 사용하는 것: 가우시안 rbf
- 각 커널마다 최적화 도와주는 매개변수 존재
1.6.2.3 RBF 커널
- gamma 매개변수 존재
- gamma 역할: 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정
- gamma: 가우시안 함수의 표준편차와 관련되어 있고, 클수록 작은 표준편차 갖음
- 결정경계의 곡률 결정

1.6.2.4 RBF 커널 SVM
- SVM 알고리즘 중 가장 성능이 좋고 일반적으로 사용하는 알고리즘
- 좋은 성능을 위해 매개변수 C, gamma 잘 조정 필요
- C는 데이터 샘플들이 다른 클래스에 놓이는 것을 허용하는 정도를 결정, gamma는 결정 경계의 곡률을 결정
- 두 값 모두 커질 경우, 알고리즘 복잡도 증가

1.6.2.5 장단점
- 장점: 에러율 낮음, 계산량 많지 않음, 결과 해석 용이
- 단점: 튜닝 파라미터 및 커널 선택에 민감, 선천적으로 이진분류만 다룰 수 있음
1.7 인공신경망(ANN)
-







'DS > 모델' 카테고리의 다른 글
| ing 지도학습 > 회귀 (0) | 2023.03.03 |
|---|---|
| [2019-객-6] 로지스틱 회귀 & 시그모이드 함수 - 최대우도추정법(Maximum Likelihood Estimation, MLE) (0) | 2023.02.25 |
| 트리 - 회귀 (0) | 2023.02.25 |
| 비지도 (0) | 2023.02.22 |
| GBM vs XGB vs LightGBM (0) | 2023.02.12 |