이분법적인 종속 변수를 예측하는 데에 linear model이 적합하지 않은 이유는?
- linear model을 적용하면 식에 따른 확률 변수 (probability variable)가 0과 1 사이의 범위를 넘어서기 때문이다. 로지스틱 회귀 모형을 이용한 종속 변수의 유형은 연속적이라기보다 이산형이다.
Logistic regression 가정에 맞지 않는 것은?
- Normal distribution of residuals; 잔차의 정규분포. 평균값은 항상 0과 1 사이이다.
- Homoscedasticity of variance; 등분산성. 이 분산은 Y값에 따라 달라진다.
→ 이 두 가정이 위반되기 때문에, 계수 측정에 대한 표준 편차가 편향된다.
로지스틱 회귀를 나타내는 세 가지 방법
이 식의 좌변은 Y를 확률로 나타낸 것이기 때문에 범주가 [0 ~ 1]인 이산형을 띄게 된다. 하지만 우변은 [-∞ ~ +∞]인 연속형 변수를 가질 수 있는 범주이기 때문에 좌변과 우변의 등호가 일치하지 못하게 된다.
그렇기 때문에 Odds-ratio를 사용해서 좌변의 식을 바꿔준다. 오즈는 확률비로, p/1-p 로 나타낼 수 있다. p는 사건이 일어날 확률, 1-p는 사건이 일어나지 않을 확률이다.
이제 오즈비가 적용된 식의 좌변은 범주 [0 ~ +∞]을 가질 수 있게 된다. 하지만 이는 양수 방향으로만 제한이 없는 상태고 여전히 우변항의 범위는 [-∞ ~ +∞]이므로 -∞을 가질 수 있는 다른 변환 방법이 필요하다. 그렇기 때문에 오즈비가 사용되었던 식에 그대로 log를 취해주면, log(p/1-p), 음수값까지 가질 수 있는 회귀식이 된다. 이것을 로짓 변환(logit)이라고 한다.
어떤 함수가 로지스틱 회귀 계수 역할을 하는가?
- Conditional probability는 Logarithm과 exponential function
- Conditional odds는 exponential function
- Logit은 linear function 역할을 한다.
→ 회귀 계수의 추정은 Maximum Likelihood estimation으로 한다. 관측한 값과 예측한 값 서로가 가장 유사도가 높은 계수의 집합을 찾는 방법이다.
만약 로지스틱 회귀에서 B0가 증가하면, 이 함수의 X축은 왼쪽으로 움직일 것인가 아니면 오른쪽으로 움직일 것인가?
왼쪽으로 움직인다. 절편이 증가하면 X값이 작더라도 더 probable해지고 1의 값에 가까워지기 때문이다.
만약 로지스틱 회귀의 B1(slope of the probability function) 값이 0이면 X와 Y는 어떤 의미를 가지는가?
X와 Y는 서로 독립적이다.
→ B1 < 0 : X에 따른 단조로운 하강 그래프를 보이게 된다.
→ B1 > 0 : X에 따른 단조로운 상승 그래프를 보이게 된다.
로지스틱 회귀는 대개 어떤 알고리즘에 기반해 추정되는가?
- Maximum Likelihood(ML). ML 함수를 이용해 회귀 계수(coefficient)를 추정할 수 있다.
로지스틱 회귀에 대한 effect size는 어떻게 추정하는가?
- 일반적으로 로지스틱 회귀에서 global effect size는 측정되지 않는다. 하지만 pseudo R2라는 방법을 이용해 effect size를 알아낼 수 있다. 선형 회귀로부터 알아낸 결정 계수 (coefficient determination = R2)에서 발달된 개념이다. 방법으로는 McFadden, Cox-Snell R-squared 등이 있다.
* 혹시나 설명이 부족하거나 틀린 부분이 있으면 주저말고 지적해주시길 바랍니다 *
'공부 > 통계' 카테고리의 다른 글
[통계] Classification & Resampling (2) | 2020.02.13 |
---|---|
[통계] Path Modeling 경로 모형 (4) | 2020.02.10 |
[통계] Categorical regression 범주형 회귀분석 (4) | 2020.02.07 |
[통계] 다변량 통계를 위한 기본적인 terminology (2) | 2020.02.07 |
[통계] Statistical learning 통계적 학습 (0) | 2020.02.06 |