본문 바로가기

공부/통계

[통계] 다변량 통계를 위한 기본적인 terminology

Univariate와 Bivariate 그리고 Multivariate methods :

  • Univariate methods : 데이터가 오직 한 가지 variable을 가지고 있을 때 적용된다. 인과 관계와 상관 관계가 없다. ex. 전집 variance를 알고 있을 때 One-sample z-test, χ2‐test for one way tables (일원 카이제곱 검정)
  • Bivariate methods : 데이터가 두 가지 variables를 가지고 있을 때 적용된다. Variables 사이의 관계를 분석한다. ex. 독립 표본 t 검정 (집단 간 평균 차이를 알아보는 분석법), 상관 분석, 일원 배치 분산 분석, 단순 회귀 분석
  • Multivariate methods : 데이터가 최소 세 개의 variables를 가지고 있을 때 적용된다. 다중 variables 사이의 상관 관계와 인과 관계를 분석한다. 다중 결정에 대한 인간 행동, 경험 등에 대한 이해를 돕는다. 쉽게 노출되지 않는 관계를 밝힐 수 있다. (심슨 패러독스 : 두 variables 사이의 관계는 오로지 3번째 variable이 고려될 때에만 나타난다.)

 

 

 

Statistical modeling vs. Statistical learning :

 

• Independent variable (독립 변인) = input variable = predictor variable = feature

• Dependent variable (종속 변인) = outcome variable = response variable = criterion variable

 

 Inference – 샘플로 선택된 데이터를 기반으로 전집 variables 간의 관계를 이해한다 → Statistical modeling

Modeling inference의 경우, Y가 X1, ..., Xp의 변화에 어떤 방식으로 영향을 끼치는지에 대한 이해를 제공한다. 이 경우 Inference의 목표는 X1에 대한 Y의 정확한 예측이 아니다.

 

• Prediction – 정확한 결과 또는 미래 데이터를 위해 통계적으로 학습된 알고리즘을 이용한다. → Statistical learning

반면, Learning의 경우에는 낮은 추정과 높은 예측을 목표로 한다. 그래서 모델 해석 용이성과 예측의 정확도 사이에서 tradeoff가 있을 수밖에 없다.