본문 바로가기

공부/통계

[통계] Categorical regression 범주형 회귀분석

Categorical variable의 유형

  • Dichotomous variable : 2개의 카테고리형 변수 (ex. 성별 - 남/녀, 답변 - Yes/No)
  • Polytomous variable : 2개 이상의 카테고리형 변수 (ex. 만족도 척도 - (1) 매우 만족한다 (2) 거의 만족한다 (3) 보통이다 ... (5) 만족하지 않는다)
  • 회귀 개념에서의 Categorical variable은 Coding variable 형태를 따른다. 일반적으로 요구되는 Coding variable은 카테고리의 수에서 [C-1]의 갯수다. (ex. 3개의 학교 - 1 = 2개의 coding variable)

 

Categorical regression의 세 가지 코딩 구조

  1. Dummy coding; 카테고리 변수들을 이분법으로 코딩하는 과정. Regression analysis는 대개 연속형 변수들을 이용하기 때문에 범주형 변수들을 변환시켜야 한다. 0과 1 사이에 순위나 높낮이의 의미는 없고 존재 유무를 판별하는 데에 사용된다. 
  2. Unweighted Effects coding; reference category에 -1을 부여한다. 
  3. Weighted Effects coding; 카테고리들의 관측치의 숫자가 일정하지 않을 때 사용하는 방법이다. (Sweeney and Ulveling, 1972)

 

 

Dummy coding을 하는 단계

 

  1. 종속 변수가 학생들의 성적이고 독립 변수가 선생님들의 교육 방법(5가지 level)이라면,
  2. 독립 변수의 카테고리들 중에서 기준이 되는 reference category; C를 정한다. reference category에는 모두 0의 값을 부여한다. 
  3. 더미 변수는 항상 카테고리의 수보다 하나가 작다. C를 제외한 C-1의 카테고리들(4개)에 다음과 같은 법칙에 따라 0이나 1의 값을 나머지 4개의 카테고리에 대입한다.
  4. 비교할 대상인 카테고리에 1을 부여하고 나머지 카테고리에 0을 넣는다. 

Dummy variable은 회귀식의 기울기를 바꾸지 않고 절편의 위치만 바꿔 변화된 영향력을 계산할 수 있게 해준다. 절편 값은 reference category에 속한 종속 변수 Y의 평균값과 같다.

 

 

 

Dummy coding에서 reference group 값의 평균값은 무엇을 의미하는가?

  • Reference category의 Y 평균값이 categorical regression 모델의 절편에 해당된다. (The reference mean is an intercept of the categorical model)

 

Dummy coding에서 기울기는 무엇을 의미하는가?

  • ŷ = b0 + b1 * X1 + b2 * X2 ; regression equation, 여기에서 기울기는 b1과 b2
  • Reference group의 평균값과 나머지 그룹들의 평균값의 차이를 보여준다. (average difference between the reference group and 1 coded category)

 

 

Unweighted effects coding에서 weighted average(평균값)은 무엇을 의미하는가?

  • reference를 제외한 다른 n개 카테고리의 평균값을 unweighted average라고 하고, 이 값을 절편으로 삼는다. 

 

Unweighted effects coding의 기울기는 무엇을 의미하는가?

  • 이 회귀식의 기울기는 종속 변수와 1로 코딩된 카테고리 평균값의 차이다.

 

Categorical regression에서 언제 weighted effects coding을 사용할 것인가?

  • 그룹들 간 관측치의 숫자가 다를 때 사용되고, research question에 따라 달라진다.
  • reference category를 선택하지 않는 방법은 effect coding으로, unweighted 평균값과의 편차를 결과로 예측하는 방법이다.
  • A way to avoid choosing a reference category is effect coding, where the resulting estimates are deviations from a grand (unweighted) mean. <When size matters: advantages of weighted effect coding in observational studies, Grotenhuis 2017>

 

Weighted mean은 어떻게 구하는가?

  • 카테고리의 평균값 * 관측치 갯수(n) + ... / 각 카테고리 관측치 갯수 모두를 더한 값 

 

 

우리가 다른 코딩 방법을 사용할 때 R-squared가 어떤 역할을 하는가?

  • 코딩 방법의 선택은 R-squared 전체 효과 사이즈effect size에 아무런 영향을 주지 않는다.

 

 

 

* 혹시나 설명이 부족하거나 틀린 부분이 있으면 주저말고 지적해주시길 바랍니다 *