2. 회귀분석
- 관찰된 연속적인 값을 토대로 인과관계를 파악하는 것
- 정의:
- 독립변수와 종속변수 사이에 인과관계가 존재할 때, 그 관계의 통계적 유의미성을 검증하고 그 관계의 정도를 분석하는 것
- 어떤 관계가 있을지에 대한 여러 가지 가설들을 회귀 모형(model)이라 부르며, 회귀모형은 수학적으로 표현했을 때 크게 트렌드를 나타내는 부분과 통제할 수 없는 오차를 나타내는 부분으로 분리
- 참고) 상관분석: 관심있는 두 변수간의 상호 관련성을 분석(상관관계 ≠ 인과관계)
- 모형의 추정:
- 적합도가 가장 큰 표본 회귀선은 오차항의 값이 가장 작은 회귀선
- 최소자승법(OLS: Ordinary least squares method): 가장 많이 사용되는 추정 방법
ㄴ 오차의 합이 0이면서, 오차제곱 값들의 합이 최소가 되도록 하는 회귀선을 구하는 방법
ㄴ 최소자승추정량 기본가정들이 충족되면, 불편성(unbiasedness), 효율성(efficiency), 선형성(linearity), 일관성(consitency)을 가짐

- 회귀모형의 평가:
- 적합도(goodness of fit): 도출된 표준회귀선이 각 관측점들을 얼마나 잘 나타낼 수 있는지, 또는 주어진 자료로부터 독립변수가 종속적으로 얼마나 잘 설명하는지 여부
- 결정계수(coefficient of determination, R2): 회귀모형의 설명력, 회귀선의 적합도를 나타내는 지표/기준

- R2값이 1에 가까워질수록 주어진 모형이 자료에 더 적합하다고 판단
- R2값은 단순히 모형의 적합도에 대한 수치적 척도를 나타낼 뿐 질적인 척도를 나타내지 못함
즉, 예측값과 실제값의 편차의 정도를 나타내며, 결정계수가 높다는 것은 예측을 했을 때 예측의 오차가 작다는 것을 의미
- 모형이 통계적으로 유의미? F통계량
- 회귀계수의 유의미한 판단? t-검정, p-value
ㄴ p-value: F-값에 따른 확률, 귀무가설(회귀식의 기울기를 b베타1=0 이다)을 지지하는 정도
- 모형이 데이터에 적합한가? 잔차 그래프, 회귀진단
ㄴ 잔차그래프: 적합 값과 잔차의 관계를 나타내는 그래프로 기울기가 0인 직선이 관측되는 것이 이상적
- 분석 전 correlation test - spearman 상관계수


2.1 선형 회귀
2.1.1 이상치
2.1.1.1 Quantile regression
2.1.1.2 Robust regression
2.1.2 Multicollinearity
2.1.2.1 Ridge & Lasso regression
2.1.2.2 PCR / PLS
2.1.3 Dependent variable
2.1.3.1 Generalized Linear Model
2.1.3.2 Poisson regression
2.1.3.3 Logistic regression
2.1.3.4 Ordinal regression
2.2 비선형 회귀
2.2.1 다항 회귀
2.2.1.1 step functions
2.2.1.2 regression spines
2.2.1.3 smoothing splines
2.2.1.4 local regression
2.2.1.5 generalized additive models
2.2.2 random forest regression
2.2.3 SVR
3. 시계열 분석
'DS > 모델' 카테고리의 다른 글
| 지도학습 > 분류 (0) | 2023.03.01 |
|---|---|
| [2019-객-6] 로지스틱 회귀 & 시그모이드 함수 - 최대우도추정법(Maximum Likelihood Estimation, MLE) (0) | 2023.02.25 |
| 트리 - 회귀 (0) | 2023.02.25 |
| 비지도 (0) | 2023.02.22 |
| GBM vs XGB vs LightGBM (0) | 2023.02.12 |