본문 바로가기

공부/통계

[통계] Logistic regression 로지스틱 회귀분석

이분법적인 종속 변수를 예측하는 데에 linear model이 적합하지 않은 이유는?

  • linear model을 적용하면 식에 따른 확률 변수 (probability variable)가 0과 1 사이의 범위를 넘어서기 때문이다. 로지스틱 회귀 모형을 이용한 종속 변수의 유형은 연속적이라기보다 이산형이다.

 

Logistic regression 가정에 맞지 않는 것은?

  • Normal distribution of residuals; 잔차의 정규분포. 평균값은 항상 0과 1 사이이다.
  • Homoscedasticity of variance; 등분산성. 이 분산은 Y값에 따라 달라진다.

→ 이 두 가정이 위반되기 때문에, 계수 측정에 대한 표준 편차가 편향된다. 

 

 

 

로지스틱 회귀를 나타내는 세 가지 방법

 

Conditional Probability

 이 식의 좌변은 Y를 확률로 나타낸 것이기 때문에 범주가 [0 ~ 1]인 이산형을 띄게 된다. 하지만 우변은 [-∞ ~ +∞]인 연속형 변수를 가질 수 있는 범주이기 때문에 좌변과 우변의 등호가 일치하지 못하게 된다. 

 그렇기 때문에 Odds-ratio를 사용해서 좌변의 식을 바꿔준다. 오즈는 확률비로, p/1-p 로 나타낼 수 있다. p는 사건이 일어날 확률, 1-p는 사건이 일어나지 않을 확률이다. 

 

Conditional Odds

 이제 오즈비가 적용된 식의 좌변은 범주 [0 ~ +∞]을 가질 수 있게 된다. 하지만 이는 양수 방향으로만 제한이 없는 상태고 여전히 우변항의 범위는 [-∞ ~ +∞]이므로 -∞을 가질 수 있는 다른 변환 방법이 필요하다. 그렇기 때문에 오즈비가 사용되었던 식에 그대로 log를 취해주면, log(p/1-p), 음수값까지 가질 수 있는 회귀식이 된다. 이것을 로짓 변환(logit)이라고 한다. 

 

Logit (transform)

 

 

 

어떤 함수가 로지스틱 회귀 계수 역할을 하는가?

 

  • Conditional probability는 Logarithm과 exponential function
  • Conditional odds는 exponential function
  • Logit은 linear function 역할을 한다.

→ 회귀 계수의 추정은 Maximum Likelihood estimation으로 한다. 관측한 값과 예측한 값 서로가 가장 유사도가 높은 계수의 집합을 찾는 방법이다.

 

 

만약 로지스틱 회귀에서 B0가 증가하면, 이 함수의 X축은 왼쪽으로 움직일 것인가 아니면 오른쪽으로 움직일 것인가?

왼쪽으로 움직인다. 절편이 증가하면 X값이 작더라도 더 probable해지고 1의 값에 가까워지기 때문이다.

 

 

만약 로지스틱 회귀의 B1(slope of the probability function) 값이 0이면 X와 Y는 어떤 의미를 가지는가?

X와 Y는 서로 독립적이다.

 

→ B1 < 0 : X에 따른 단조로운 하강 그래프를 보이게 된다.

→ B1 > 0 : X에 따른 단조로운 상승 그래프를 보이게 된다. 

 

 

로지스틱 회귀는 대개 어떤 알고리즘에 기반해 추정되는가?

  • Maximum Likelihood(ML). ML 함수를 이용해 회귀 계수(coefficient)를 추정할 수 있다.

 

 

로지스틱 회귀에 대한 effect size는 어떻게 추정하는가?

  • 일반적으로 로지스틱 회귀에서 global effect size는 측정되지 않는다. 하지만 pseudo R2라는 방법을 이용해 effect size를 알아낼 수 있다. 선형 회귀로부터 알아낸 결정 계수 (coefficient determination = R2)에서 발달된 개념이다. 방법으로는 McFadden, Cox-Snell R-squared 등이 있다. 

 

 

 

 

* 혹시나 설명이 부족하거나 틀린 부분이 있으면 주저말고 지적해주시길 바랍니다 *