


https://be-favorite.tistory.com/52
GLMs: Generalized Linear Models
❗️블로그 옮김: https://www.taemobang.com 방태모 안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있
be-favorite.tistory.com





GLM 모델링 방식
1. 정의
1) 종속변수가 정규분포하지 않는 경우를 포함하는 선형모형의 확장
2) family라는 인자의 따라 link함수가 달라진다.
종속변수의 분포가 정규분포인 경우 Gaussian
종속변수의 분포가 이항분포 경우 binomial
종속변수의 분포가 포아송인 경우 Poisson
종속변수의 분포가 역정규분포인 경우 inverse gaussian
종속변수의 분포가 감마분포인 경우 gamma
3) 대표적모델
종속변수가 0 아니면 1인 경우 : Logistic regression
종속변수가 순위나 선호도와 같이 순서만 있는 데이터 : ordinal regression
종속변수가 개수를 나타내는 경우 : poisson Regression
https://riverzayden.tistory.com/10
Generalized linear Model ( 일반화 선형모델 - GLM ) 개념 및 python 예제
Generalized linear Model - 일반화 선형 모델 ( GLM ) 1. 정의 1) 종속변수가 정규분포하지 않는 경우를 포함하는 선형모형의 확장 2) family라는 인자의 따라 link함수가 달라진다. 종속변수의 분포가 정규분
riverzayden.tistory.com
제 데이터는 독립적이고 동일한 분포(iid)라는 가정이 위배되고 있습니다.
예를 들어, 같은 환자에 대하여 반복적인 측정을 수행합니다.
→혼합 모델(Mixed model) 혹은 일반화 추정 방정식(Generalized extimation equation)
제 모델에는 이질적인 오류가 발생합니다.
예를 들어, 주택의 가격을 예측할 때, 모델 오류는 보통 비싼 주텍에서 더 높기 때문에 선형 모델의 균일성이 위배됩니다.
→Robust 회귀 분석(Robust regression)
제 모델에 강한 영향을 미치는 이상점(outlier)이 있습니다.
→Robust 회귀 분석(Robust regression)
저는 어느 한 사건이 일어날 때까지의 시간을 예측하고자 합니다.
사건 발생 시간 데이터는 일반적으로 검열된 측정과 함께 제공되는데, 이는 일부의 경우 사건을 관찰할 시간이 부족하다는 것을 의미합니다. 예를 들어, 한 회사는 얼음 기계의 고장을 예측하고 싶어 하지만, 2년 동안의 데이터를 가지고 있습니다. 일부 기계는 2년이 지나도 여전히 제대로 동작하고 있지만 나중에는 고장이 날 가능성이 있습니다.
→모수적 생존모형(Parametric survival model), cox 회귀(Cox regression), 생존 분석(survival analysis)
제 모델의 예측 결과는 카테고리입니다.
만약 결과에 두 개의 카테고리가 있는 경우, 카테고리에 대한 확률을 모델링하는 로지스틱 회귀 모델을 사용합니다.
→더 많은 카테고리가 있다면 다항식 회귀(Multinomial regression)에 대해 검색하십시오. 로지스틱 회귀 분석과 다항식 회귀 분석 모두 GLM입니다.
저는 순서 있는 카테고리에 대해 예측하고자 합니다.
예를 들면 학점순과 같은 경우입니다.
→비례 오즈 모델(Propotional odds model)
제 데이터의 결과는 횟수(한 가족의 아이들의 수)입니다.
→포아송 회귀(Poisson regression)
포아송 모델은 GLM이기도 합니다. 0의 갯수가 매우 빈번한 문제도 있을 수 있습니다.
→영과잉 포아송 회귀(Zero-inflated Poisson regression), 허들 모델(Hurdle model)
저는 정확한 인과관계 결과를 도출하기 위해 어떤 특성값을 모델에 포함시켜야 하는지 확신할 수가 없습니다.
예를 들어, 약물이 협압에 미치는 영향을 알고 싶은데, 이 약이 어떤 혈액 수치에 직접적인 영향을 미치고 그 혈행의 수치는 결과에 영향을 미칩니다. 혈액 수치를 회귀 모델에 포함해야 하나요?
→인과 추론(Causal inference), Mediation 분석(Mediation analysis)
데이터가 누락되었습니다.
→다중 대치법(Multiple imputation)
제 모델의 사전 지식(Prior knowledge)을 통합하고자 합니다.
→베이즈 추론(Bayesian inference)
'DS' 카테고리의 다른 글
| 문제 유형 (0) | 2023.02.22 |
|---|---|
| concept / data drift (0) | 2023.02.21 |
| [서-2022-1] (0) | 2023.02.12 |
| [2022-객-7] Adaboost classification (0) | 2023.02.11 |
| 트리 - 오버피팅 (0) | 2023.02.05 |