본문 바로가기
DS

[2022-객-6] 결정계수 R^2 설명력

by okso6441 2023. 2. 5.

 

 

ㄱ.

결정계수: 

  • 회귀모델이 주어진 자료에 얼마나 적합한지를 평가하는 지표
  • y의 변동량대비 모델 예측값의 변동량을 의미함
  • 0~1의 값을 가지며, 상관관계가 높을수록 1에 가까워짐
  • r2=0.3인 경우 약 30% 정도의 설명력을 가진다 라고 해석할 수 있음
  • sklearn의 r2_score의 경우 데이터가 arbitrarily할 경우 음수가 나올수 있음
  • 음수가 나올경우 모두 일괄 평균으로 예측하는 것보다 모델의 성능이 떨어진다는 의미
  • 결정계수는 독립변수가 많아질 수록 값이 커지기때문에, 독립변수가 2개 이상일 경우 조정된 결정계수를 사용해야 함

ㄴ. 회귀분석은 독립변수를을 가지고 종속변수를 설명하는게 목적이고, 상관분석은 두 변수의 직선관계 정도를 보는것

인자가 하나일때는 상관계수의 제곱값과 결정계수값(0.4)이 같습니다.

http://www.seoulpaper.com/seoul/board.php?bo_table=b05_02&wr_id=14&me_code=5020 

 

상관계수와 결정계수의 관계 > 통계용어 | 서울논문컨설팅

http://zip365.com/zb41pl4/bbs/view.php?id=bussiness&page=8&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=hit&desc=asc&no=91&PHPSESSID=bdf2ca143fa5f4a5b3c7714c8a7229fb  회귀분석은 독립변수를을 가지고 종속변수를 설명하는게 목적

www.seoulpaper.com

결정계수 R2 에 루트를 취하면 상관계수 값

https://agronomy4future.org/?p=2295 

 

회귀분석의 결정계수 (R-squared) 를 가장 쉽게 설명해 보자 - Agronomy4future

위와 같은 x, y 데이터가 있습니다. 독립변수 x 에 따라 종속변수 y 가 변하는 이 데이터의 회귀모형, y= β0 + β1x 을 구하고자 합니다. 그냥 통계 프로그램에 데이터를 넣으면 바로 값이 나오지만

agronomy4future.org

 

ㄷ. 동일한 모델 & 다른 데이터 적용 => 동일한 RMSE -> + - 폭이 더 커도 0이 될 수 있음

  R^2 = SSR / SST = 1- (SSE / SST) 

여기서 모델의 분산은 SST로 추정

SSE가 동일할 때, SST가 더 크면, R^2 커짐 (R^2 = 1 - 작아진 값)