본문 바로가기

전체 글113

ing 지도학습 > 회귀 2. 회귀분석 - 관찰된 연속적인 값을 토대로 인과관계를 파악하는 것 - 정의: - 독립변수와 종속변수 사이에 인과관계가 존재할 때, 그 관계의 통계적 유의미성을 검증하고 그 관계의 정도를 분석하는 것 - 어떤 관계가 있을지에 대한 여러 가지 가설들을 회귀 모형(model)이라 부르며, 회귀모형은 수학적으로 표현했을 때 크게 트렌드를 나타내는 부분과 통제할 수 없는 오차를 나타내는 부분으로 분리 - 참고) 상관분석: 관심있는 두 변수간의 상호 관련성을 분석(상관관계 ≠ 인과관계) - 모형의 추정: - 적합도가 가장 큰 표본 회귀선은 오차항의 값이 가장 작은 회귀선 - 최소자승법(OLS: Ordinary least squares method): 가장 많이 사용되는 추정 방법 ㄴ 오차의 합이 0이면서, 오차.. 2023. 3. 3.
지도학습 > 분류 1. 분류분석 1.1 의사결정나무 - 종속변수(Y)가 연속형일때는 mean/median 으로 설정 - 설명변수(X)가 연속형일때 낮은 예측 능력 - 자료의 추가에 의해 나무구조가 바뀔 수 있음 - 비선형데이터에는 적합하지 못함(데이터 구분을 위해 이진분할 하기 때문에 독립-종속변수가 선형적일때 적합) 1.1.1 형성과정 - 성장 > 가지치기 > 타당성 평가 > 해석 및 예측 - 타당성 평가: 이익도표나 위험도표 또는 검증용 데이터를 이용하여 의사결정 나무 평가 - 이익도표: 모델의 예측값에 따른 이익(혹은 손실)을 계산하여 표로 나타낸 것 - 위험도표: 모델의 예측값에 따른 위험(혹은 성공 확률)을 계산하여 표로 나타낸 것 ※ C5.0 알고리즘의 장점: 가지치기의 최적화 ※ 활용: 차원축소, 변수선택, .. 2023. 3. 1.
데이터 리샘플링 불균일할 경우, 10% 이상의 이벤트 수준 요구 Decision Tree, Logistic Regression 알고리즘: 인스턴스 수가 있는 클래스에 편향이 있고, 소수 계층의 특징은 잡음으로 간주되어 무시되기도 함(오분류 가능성) 3.1 undersampling 장점: training set이 많을 때 샘플 수를 줄임으로써 저장 문제나 실행 속도 문제를 개설 할 수 있다. 단점: 분류기를 만들 때 중요한 정보를 누락할 수 있다. 랜덤 샘플링의 경우 정확한 대표성을 갖추지 못하면 부정확할 결과 야기 3.2 oversampling - 소수 클래스 인스턴스 수 늘린다(단순 복사) 장점: 정보 손실 없고, 언더 샘플링보다 성능이 좋다 단점: 소수 클래서 복사하기 때문에 과적합 가능성 있음 3.3 SMOTE(S.. 2023. 3. 1.
데이터 분할 2.1 Holdout method - 전체 데이터를 서로 겹치지 않는 두 데이터 집합으로 비복원 추출 2.2 k-fold cross validation(교차검증) 2.3 BootStrap - 훈련용 데이터를 데이터 수 만큼 복원추출 - 63.2% 2023. 3. 1.