본문 바로가기

공부/통계

[통계] Multilevel regression 다층 모형 회귀

Multilevel regression이란 무엇인가?

  • 복잡한 변동성 패턴이 있는 데이터와 그 변동성 안에 내재된 변수들에 초점을 맞춘 분석 방법이다. 수준마다 속해 있는 변수들이 다르므로 Hierarchical linear model 또는 linear mixed effects model이라고도 불린다. 이 회귀 모형은 다른 수준의 독립 변수들을 동시에 모델링할 수 있다.

 

예시)

 

  • 연구 주제 : 교실에서의 특정 교육 방침이 학업 성취도에 긍정적인 영향을 끼칠 것인가?
  • 종속 변수 : 학업 성취도 = 양적 측정 (테스트를 통해 측정됨)
  • 독립/예측 변수 : 교육 방침 유형 = 질적 측정 ([1] 직접적임 / [2] 직접적이지 않음 / [3] 상호적임 / [4] 독립적임 / [5] 실험적임)

여기에서 모형 구성은 레벨 3은 학교 특성, 레벨 2는 교육 방침 유형, 레벨 3은 학생 개개인으로 나뉠 것이다.

→ 대개 레벨 1은 작은 구성 단위로 이루어진다. 거시적인 변수로 갈수록 데이터 구성에서의 상위 레벨에 속하게 된다.

 

 

 

통계 분석을 할 때 주의해야 할 점 - Ecological Fallacy (생태학적 오류)

  • 개인의 특성(또는 최소 단위의 variables)을 고려하지 않은, 또는 그 특성을 상위 그룹에 포함시켜 만든 간단한 데이터 통계 해석은 논리적 오류가 일어날 수 있다.
  • 거시적 변수와 미시적 변수의 상관을 파악하려는 것은 미시적 단계의 해석을 무시할 수 있다. (Robinson, 1950)

 

 

다중 회귀 모형 수식

Multiple regression

 

Multilevel regression

 

 

i는 데이터(학교, 교실 등)에 내재된 개인(학생)을 칭한다.

 

레벨 2 모델 식의 B0i에서 γ00은 총 평균 절편을 나타내고, 그 옆의 U0i는 평균 절편에서부터의 레벨 2 절편의 변동 크기를 말한다. B1i에서의 γ10은 총 평균 기울기를 나타내고, 그 옆의 U1i는 평균 기울기에서부터의 레벨 2 기울기의 변동 크기를 말한다.

 

 

Intra-class-correlation (coefficient) 급내 상관계수란?

  • 평가자간 신뢰도를 구하는 것으로, 다층 모형이 군집을 사용하기 때문에 신뢰도를 양적화하는 것이다. ICC는 0에서 1까지의 범위로 나타나고, 레벨 2로 구성된 관찰 정도의 유사성을 나타낸다.
  • ICC에서의 0 = 총 관찰된 분산값이 레벨 1 유닛의 차이에서 비롯된다.
  • ICC에서의 1 = 총 관찰된 분산값이 레벨 2 유닛의 차이에서 비롯된다.