
ㄱ.
결정계수:

- 회귀모델이 주어진 자료에 얼마나 적합한지를 평가하는 지표
- y의 변동량대비 모델 예측값의 변동량을 의미함
- 0~1의 값을 가지며, 상관관계가 높을수록 1에 가까워짐
- r2=0.3인 경우 약 30% 정도의 설명력을 가진다 라고 해석할 수 있음
- sklearn의 r2_score의 경우 데이터가 arbitrarily할 경우 음수가 나올수 있음
- 음수가 나올경우 모두 일괄 평균으로 예측하는 것보다 모델의 성능이 떨어진다는 의미
- 결정계수는 독립변수가 많아질 수록 값이 커지기때문에, 독립변수가 2개 이상일 경우 조정된 결정계수를 사용해야 함



ㄴ. 회귀분석은 독립변수를을 가지고 종속변수를 설명하는게 목적이고, 상관분석은 두 변수의 직선관계 정도를 보는것
인자가 하나일때는 상관계수의 제곱값과 결정계수값(0.4)이 같습니다.
http://www.seoulpaper.com/seoul/board.php?bo_table=b05_02&wr_id=14&me_code=5020
상관계수와 결정계수의 관계 > 통계용어 | 서울논문컨설팅
http://zip365.com/zb41pl4/bbs/view.php?id=bussiness&page=8&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=hit&desc=asc&no=91&PHPSESSID=bdf2ca143fa5f4a5b3c7714c8a7229fb 회귀분석은 독립변수를을 가지고 종속변수를 설명하는게 목적
www.seoulpaper.com
결정계수 R2 에 루트를 취하면 상관계수 값
https://agronomy4future.org/?p=2295
회귀분석의 결정계수 (R-squared) 를 가장 쉽게 설명해 보자 - Agronomy4future
위와 같은 x, y 데이터가 있습니다. 독립변수 x 에 따라 종속변수 y 가 변하는 이 데이터의 회귀모형, y= β0 + β1x 을 구하고자 합니다. 그냥 통계 프로그램에 데이터를 넣으면 바로 값이 나오지만
agronomy4future.org
ㄷ. 동일한 모델 & 다른 데이터 적용 => 동일한 RMSE -> + - 폭이 더 커도 0이 될 수 있음
R^2 = SSR / SST = 1- (SSE / SST)
여기서 모델의 분산은 SST로 추정
SSE가 동일할 때, SST가 더 크면, R^2 커짐 (R^2 = 1 - 작아진 값)

'DS' 카테고리의 다른 글
| [2022-객-7] Adaboost classification (0) | 2023.02.11 |
|---|---|
| 트리 - 오버피팅 (0) | 2023.02.05 |
| [2022-객-5] LightGBM 과적합, 트리 과적합/튜닝/학습 속도, AdaBoost 학습오차 (0) | 2023.02.04 |
| [2022-객-3] 조건부 확률 베이즈 정리 (0) | 2023.02.04 |
| [2022-객-2] Binomial Distribution(이항분포) 이산확률변수 (0) | 2023.02.04 |