Categorical variable의 유형
- Dichotomous variable : 2개의 카테고리형 변수 (ex. 성별 - 남/녀, 답변 - Yes/No)
- Polytomous variable : 2개 이상의 카테고리형 변수 (ex. 만족도 척도 - (1) 매우 만족한다 (2) 거의 만족한다 (3) 보통이다 ... (5) 만족하지 않는다)
- 회귀 개념에서의 Categorical variable은 Coding variable 형태를 따른다. 일반적으로 요구되는 Coding variable은 카테고리의 수에서 [C-1]의 갯수다. (ex. 3개의 학교 - 1 = 2개의 coding variable)
Categorical regression의 세 가지 코딩 구조
- Dummy coding; 카테고리 변수들을 이분법으로 코딩하는 과정. Regression analysis는 대개 연속형 변수들을 이용하기 때문에 범주형 변수들을 변환시켜야 한다. 0과 1 사이에 순위나 높낮이의 의미는 없고 존재 유무를 판별하는 데에 사용된다.
- Unweighted Effects coding; reference category에 -1을 부여한다.
- Weighted Effects coding; 카테고리들의 관측치의 숫자가 일정하지 않을 때 사용하는 방법이다. (Sweeney and Ulveling, 1972)
Dummy coding을 하는 단계
- 종속 변수가 학생들의 성적이고 독립 변수가 선생님들의 교육 방법(5가지 level)이라면,
- 독립 변수의 카테고리들 중에서 기준이 되는 reference category; C를 정한다. reference category에는 모두 0의 값을 부여한다.
- 더미 변수는 항상 카테고리의 수보다 하나가 작다. C를 제외한 C-1의 카테고리들(4개)에 다음과 같은 법칙에 따라 0이나 1의 값을 나머지 4개의 카테고리에 대입한다.
- 비교할 대상인 카테고리에 1을 부여하고 나머지 카테고리에 0을 넣는다.
Dummy variable은 회귀식의 기울기를 바꾸지 않고 절편의 위치만 바꿔 변화된 영향력을 계산할 수 있게 해준다. 절편 값은 reference category에 속한 종속 변수 Y의 평균값과 같다.
Dummy coding에서 reference group 값의 평균값은 무엇을 의미하는가?
- Reference category의 Y 평균값이 categorical regression 모델의 절편에 해당된다. (The reference mean is an intercept of the categorical model)
Dummy coding에서 기울기는 무엇을 의미하는가?
- ŷ = b0 + b1 * X1 + b2 * X2 ; regression equation, 여기에서 기울기는 b1과 b2
- Reference group의 평균값과 나머지 그룹들의 평균값의 차이를 보여준다. (average difference between the reference group and 1 coded category)
Unweighted effects coding에서 weighted average(평균값)은 무엇을 의미하는가?
- reference를 제외한 다른 n개 카테고리의 평균값을 unweighted average라고 하고, 이 값을 절편으로 삼는다.
Unweighted effects coding의 기울기는 무엇을 의미하는가?
- 이 회귀식의 기울기는 종속 변수와 1로 코딩된 카테고리 평균값의 차이다.
Categorical regression에서 언제 weighted effects coding을 사용할 것인가?
- 그룹들 간 관측치의 숫자가 다를 때 사용되고, research question에 따라 달라진다.
- reference category를 선택하지 않는 방법은 effect coding으로, unweighted 평균값과의 편차를 결과로 예측하는 방법이다.
- A way to avoid choosing a reference category is effect coding, where the resulting estimates are deviations from a grand (unweighted) mean. <When size matters: advantages of weighted effect coding in observational studies, Grotenhuis 2017>
Weighted mean은 어떻게 구하는가?
- 카테고리의 평균값 * 관측치 갯수(n) + ... / 각 카테고리 관측치 갯수 모두를 더한 값
우리가 다른 코딩 방법을 사용할 때 R-squared가 어떤 역할을 하는가?
- 코딩 방법의 선택은 R-squared 전체 효과 사이즈effect size에 아무런 영향을 주지 않는다.
* 혹시나 설명이 부족하거나 틀린 부분이 있으면 주저말고 지적해주시길 바랍니다 *
'공부 > 통계' 카테고리의 다른 글
[통계] Path Modeling 경로 모형 (4) | 2020.02.10 |
---|---|
[통계] Logistic regression 로지스틱 회귀분석 (4) | 2020.02.08 |
[통계] 다변량 통계를 위한 기본적인 terminology (2) | 2020.02.07 |
[통계] Statistical learning 통계적 학습 (0) | 2020.02.06 |
[통계] SEM(structure equation modeling), 구조 방정식 모형 (0) | 2020.02.06 |