본문 바로가기
DS/모델

지도학습 > 분류

by okso6441 2023. 3. 1.


1. 분류분석


  1.1 의사결정나무

    - 종속변수(Y)가 연속형일때는 mean/median 으로 설정 

    - 설명변수(X)가 연속형일때 낮은 예측 능력 

    - 자료의 추가에 의해 나무구조가 바뀔 수 있음 

    - 비선형데이터에는 적합하지 못함(데이터 구분을 위해 이진분할 하기 때문에 독립-종속변수가 선형적일때 적합)

 

    1.1.1 형성과정

      - 성장 > 가지치기 > 타당성 평가 > 해석 및 예측 

      - 타당성 평가: 이익도표나 위험도표 또는 검증용 데이터를 이용하여 의사결정 나무 평가 

        - 이익도표: 모델의 예측값에 따른 이익(혹은 손실)을 계산하여 표로 나타낸 것

        - 위험도표: 모델의 예측값에 따른 위험(혹은 성공 확률)을 계산하여 표로 나타낸 것

      ※ C5.0 알고리즘의 장점: 가지치기의 최적화 

      ※ 활용: 차원축소, 변수선택, 교호작용효과파악(여러 예측변수 결합해 목표변수 작용 규치 파악)

 

    1.1.2 순도측정방법

      - 순도: 데이터 균일 정도(데이터가 하나의 범주면 pure)

      1) 엔트로피 지수(entropy index)  - 작아지는 방향(불순도 감소)으로 분할 수행 

        - 분기 전과 후의 엔트로피 변화 확인

        - 엔트로피 증가= 불확실성 증가 = 순도 감소 = 정보 손실 => 분할하지 않는 것이 낫다고 판단함(1이면 다종성 최대값)

        - 엔트로피 감소 = 불확실성 감소 = 순도 증가 = 정보 획득 => 분할한것이 낫다고 판단함(0이면 표본 완전히 하나)

 

      2) 지니지수(gini index) - 작아지는 방향으로 분할 수행 

        -

 

      3) 카이제곱 통계량(chi-square statistic) - 커지는 방향으로 분할 수행 

        - (-)값은 작을수록 자식 노드간의 이질성이 크다

 

    1.1.3 알고리즘

    

CART(Classification and Regression Tree) C4.5 C5.0 CHAID(Chi-square Automatic Interation Detection)
이진분리 다진분리  
범주형: 지니
연속형: 분산
엔트로피 카이제곱 통계량 
개별입력 뿐 아니라 입력변수 선형결합 중 최적 분리 찾을 수 있음 5.0 다양한 문제 잘 작동 입력변수 반드시 범주형 
가지치기 하지 않고 적당한 크기 나무 성장 중지

 

 1.2 로지스틱 회귀분석(일반적으로 범주가 두개인 이항형 문제)

    - 독립변수의 선형 결합을 이용, 사건의 발생 가능성을 예측하는 통계 기법

      - 다항 로지스틱 회귀(multinomial logistic regression) or 분화 로지스틱 회귀(polytomous logistic regression): 두 개 이상의 범주를 가지는 문제가 대상

      - 서수 로지스틱 회귀(ordinal logistic regression): 복수 범주면서 순서가 존재

 

    1.2.1 정의 및 종류

카이제곱 T검정 분산분석 구조방정식

 

odds ratio logit 변환 로짓


 1.3 앙상블

    1.3.1 랜덤포레스트

      - 임의 노드 최적화(Randomized node optimization): 분석에 사용될 데이터를 랜덤하게 추출 

      - 장점: 과적합 없음(bias는 유지되고 variance는 감소되어 정확도가 높음)

                  멀티코어 프로세스 이용 병렬처리 가능함으로 빅데이터 시스템에 적합

                  별도 튜닝(스케일 조정)없이도 성능 우수

     - 단점: 임의 데이터 생성으로 처리 데이터가 대용량이 되어 처리시간 증가

                 설명력 부족(변수 중요도는 제공되며, 불순도의 감소량으로 판단)

      - Decision Tree vs Random Forest 차이점 

별도 test data 없어도 모델이 OOB 과정에서 제외된 자료 오류율 계산

    1.3.2 부스팅

      - 표본을 구성하는 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중치를 두어 표본 추출하여 모델에 넣는 방법 

불균형 Xgboost


  1.4 나이브 베이즈

    - 조건부 확률을 계산하여 분류하고자 하는 대상의 각 분류별 확률을 측정하여, 그 확률이 큰 쪽으로 분류하는 알고리즘

    - 장점: 쉽고 처리 속도 빠름, 분류 분석에 용이

               변수들이 서로 독립일 때 다른 모델보다 좋은 성능

               연속형보다 범주형 변수에 적합, 연속형인 경우 정규분포 가정함

    - 단점: 훈련 데이터에 없는 새로운 데이터가 들어올 경우 분류가 되지 않음(조건부 확률이 0이기 때문에)

                 ㄴ smoothing 기술을 사용하여 보정(laplace estimation)

                변수들끼리의 독립성이 보장되면 좋은 성능이 나지만 현실에서 보장하기 힘든 조건임

    - 활용: 실시간 분류 필요, 텍스트 분석(분류, 스팸 필터링, 감성 분석), 추천시스템


  1.5 KNN

    - K의 역할은 몇 번째로 가까운 데이터까지 살펴볼 것인가를 정한 숫자

다수결
표준화 필요
sqrt(N)
비모수(분포 무관), 샘플수와 성능이 비례


  1.6 SVM(Support Vector Machine)

    - 서로 다른 데이터를 가장 크게 분류하는 선을 찾는 분석 방법 

    - margin: 두 데이터 군과 결정경계와 가장 떨어져 있는 정도(여백)

    - support vector: 두 클래스 사이의 경계에 위치한 데이터 포인트 들(점선 위에 있는 데이터들)

                                결정경계를 지지(support)하고 있다고 말할 수 있으므로 support vector

    - 결정경계(or 분리 초평면): 클래스가 다른 데이터들을 가장 큰 margin으로 분리해내는 선 또는 면 데이터 공간의 차원보다 한 차원 아래 

      1.6.1 선형 SVM (outlier 존재)

        1.6.1.1 Cost(C)

          - Outlier가 존재하여 데이터를 선형적으로 완벽하게 분리할 수 없을 때 약간의 오류를 허용하는 파라미터 

          - 얼마나 많은 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는지를 결정 

          - 낮은 C: 이상치를 많이 허용. 일반적인 분류 경계를 찾아줌, 너무 낮으면 과소적합 가능성 커짐 

          - 높은 C: 이상치를 적게 허용. 분류 정확도 높지만, 과대적합 가능성 커짐 

 

        1.6.1.2 선형 SVM 한계

          - 커널 필요성

      1.6.2 kernel SVM 

        1.6.2.1 커널 기법

          - 주어진 데이터를 고차원 특징 공간으로 사상해주는 것 

        1.6.2.2 커널 종류

          - olynomial, sigmoid, 가우시안 rbf

          - 가장 성능이 좋아 자주 사용하는 것: 가우시안 rbf

          - 각 커널마다 최적화 도와주는 매개변수 존재 

        1.6.2.3 RBF 커널

          - gamma 매개변수 존재

          - gamma 역할: 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정

          - gamma: 가우시안 함수의 표준편차와 관련되어 있고, 클수록 작은 표준편차 갖음

          - 결정경계의 곡률 결정 

        1.6.2.4 RBF 커널 SVM

          - SVM 알고리즘 중 가장 성능이 좋고 일반적으로 사용하는 알고리즘 

          - 좋은 성능을 위해 매개변수 C, gamma 잘 조정 필요

          - C는 데이터 샘플들이 다른 클래스에 놓이는 것을 허용하는 정도를 결정, gamma는 결정 경계의 곡률을 결정

          - 두 값 모두 커질 경우, 알고리즘 복잡도 증가

        1.6.2.5 장단점

          - 장점: 에러율 낮음, 계산량 많지 않음, 결과 해석 용이

          - 단점: 튜닝 파라미터 및 커널 선택에 민감, 선천적으로 이진분류만 다룰 수 있음


  1.7 인공신경망(ANN)

    - 

역전파