본문 바로가기

공부/통계

(11)
[통계] Partial correlation 편(부분) 상관관계와 Multiple regression Partial correlation이란? - 어떤 두 변수 사이의 연관에서 영향을 줄 수 있는 하나 또는 그 이상의 변수를 통제해 관계의 strength와 direction을 결과로 나타내는 분석 방법이다. 통제 변수를 공변량 또는 3차 변수라고 일컫기도 한다. Partial correlation은 어떻게 측정하는가? - Simple linear regression (단순 선형 회귀) 을 이용해 측정하는 방법이 있다. 두 연관된 선형 회귀로부터 (Risidualize X for Z 그리고 Residualize Y for Z) 잔차를 얻고, 그 잔차 사이의 상관관계를 알아내는 방법이다. Multiple regression (다중 회귀) : 종속 변수와 최소 두 개 이상의 독립 변수의 관계를 분석하는 방법으..
[통계] Classification & Resampling Logistic regression이 아닌 LDA(linear discriminant analysis), 선형 판별 분석은 언제 사용되는가?두 개 이상의 response classes가 있을 때response classes가 잘 분리되어 있을 때 (logistic regression을 사용하면 불안정할 것이다) LDA의 기본 원리 각각의 class에 분산되어 있는 X를 모델로 하고, Pr(Y|X)를 얻기 위해 베이즈 확률론으로 flip 한다.linear와 quadratic discriminant analysis는 X의 class에 대한 분산이 정규 분포(Gaussian)로 나타난다고 추정한다.linear 데이터는 linear discriminant analysis가, non-linear 데이터는 quad..
[통계] Path Modeling 경로 모형 왜 경로 모형을 사용하는가? 경로 모형은 측정 변수들을 위한 구조적 모델이다. 관찰된 여러 변수들의 상관관계 구조에 대한 기저(메커니즘)를 가정과 관련해 설명한다. 경로 모형과 관련된 용어 Exogenous variable, 외생 변수 : 모델로 설명되지 않는 변수들. 하지만 모델 내의 다른 변수들을 설명한다. 다항 회귀식에서의 독립 변수(predictor, independent variable)와 상통하는 의미를 가진다. Endogenous variable, 내생 변수 : 모델로 설명되는 변수들. 다항 회귀식에서의 종속 변수(outcome, dependent variable)와 상통하는 의미를 가진다. Mediator variable, 매개 변수 : 같은 모델에서 exogenous와 endogenous..
[통계] Logistic regression 로지스틱 회귀분석 이분법적인 종속 변수를 예측하는 데에 linear model이 적합하지 않은 이유는? linear model을 적용하면 식에 따른 확률 변수 (probability variable)가 0과 1 사이의 범위를 넘어서기 때문이다. 로지스틱 회귀 모형을 이용한 종속 변수의 유형은 연속적이라기보다 이산형이다. Logistic regression 가정에 맞지 않는 것은? Normal distribution of residuals; 잔차의 정규분포. 평균값은 항상 0과 1 사이이다. Homoscedasticity of variance; 등분산성. 이 분산은 Y값에 따라 달라진다. → 이 두 가정이 위반되기 때문에, 계수 측정에 대한 표준 편차가 편향된다. 로지스틱 회귀를 나타내는 세 가지 방법 이 식의 좌변은 Y를..
[통계] Categorical regression 범주형 회귀분석 Categorical variable의 유형 Dichotomous variable : 2개의 카테고리형 변수 (ex. 성별 - 남/녀, 답변 - Yes/No) Polytomous variable : 2개 이상의 카테고리형 변수 (ex. 만족도 척도 - (1) 매우 만족한다 (2) 거의 만족한다 (3) 보통이다 ... (5) 만족하지 않는다) 회귀 개념에서의 Categorical variable은 Coding variable 형태를 따른다. 일반적으로 요구되는 Coding variable은 카테고리의 수에서 [C-1]의 갯수다. (ex. 3개의 학교 - 1 = 2개의 coding variable) Categorical regression의 세 가지 코딩 구조 Dummy coding; 카테고리 변수들을 이분..
[통계] 다변량 통계를 위한 기본적인 terminology Univariate와 Bivariate 그리고 Multivariate methods :Univariate methods : 데이터가 오직 한 가지 variable을 가지고 있을 때 적용된다. 인과 관계와 상관 관계가 없다. ex. 전집 variance를 알고 있을 때 One-sample z-test, χ2‐test for one way tables (일원 카이제곱 검정)Bivariate methods : 데이터가 두 가지 variables를 가지고 있을 때 적용된다. Variables 사이의 관계를 분석한다. ex. 독립 표본 t 검정 (집단 간 평균 차이를 알아보는 분석법), 상관 분석, 일원 배치 분산 분석, 단순 회귀 분석Multivariate methods : 데이터가 최소 세 개의 variabl..
[통계] Statistical learning 통계적 학습 Statistical learning과 Statistical modeling의 가장 주요한 차이점은 무엇인가? 정의(definition)의 차이 statistical modeling : 모델이 먼저 확정된다. statistical learning : 모델은 data-driven이 목적이다. Training-MSE 편향 만약 한 function이 완벽하게 training set에 맞아 들면, 이것은 진정한 프로세싱-미래의 데이터 예측-을 반영하지 못할 것이다. (편향 높음, high Bias) Bias-varinace trade-off (편향-분산 트레이드 오프)에 대해 설명해보자 대부분의 경우처럼, 우리가 더 유연한 방법을 사용하게 된다면 분산은 증가하고 편향은 감소한다. (variance↑, bias↓..
[통계] SEM(structure equation modeling), 구조 방정식 모형 SEM으로 구성되어 있는 두 가지 파트는 무엇인가? MM (measurement model) 측정 지표들(indicators)과 잠재적 요인(latent variable, factor) 간의 관계. 잠재 변수들은 관찰된 변수의 공분산을 설명한다. latent variable: 그 자체만으로는 측정이 불가하고 observed variable에 의해 설명되는 변수. (explains the common variance of the indicators) SEM (structural model) 잠재 변수들 사이의 관계를 기술한다. 만약 상관 관계만 있다면 = CFA (confirmatory factor analysis) 파라미터들은 maximum likelihood를 이용해 추정될 수 있다. 잠재 변수를 어떻..