본문 바로가기

공부/통계

[통계] Factor analysis 요인 분석

Factor analysis란,

  • 여러 변수 간의 관계성이나 패턴을 파악하여 요인의 수를 줄여서 구조를 축약하기 위해 사용하는 기법

 

관찰된 변수 분해의 분산은 어떻게 되는가?

  • 공통성(communality) : 데이터에서 추측된 요인들에 의해 각 변수들의 분산을 설명하는 정도.
  • 유일성(Uniqueness) : 전체 측정 변수들의 분산을 설명하는 정도

측정된 변수의 공통성 값은 1까지 국한되어 있고, 1에 가까워질수록(커질수록) 필요 변수라고 말한다. 공통성은 관찰(측정)된 변수들과 요인 사이의 제곱된 상관 관계이다. (squared correlation)

 

요인 분석의 두 가지 메인 유형

  • Exploratory factor analysis, 탐색적 요인 분석
  • 측정 변수들 상관의 패턴이나 구조를 가장 잘 설명할 수 있는 요인의 수
  • Loading 구조 - 내재 요인이 가지고 있는 관찰된 변수에 대한 설명력 (인과 관계라고도 말할 수 있다)

 

  • Confirmatory factor analysis, 확인 요인 분석
  • 구조적 수식 모델
  • 탐색적 요인 분석을 설명하기 위한 이론적 가정이다.

 

탐색적 요인 분석의 단계

  1. 요인의 수를 결정한다. - 가장 좋은 solution이 나올 때까지 단계적으로 요인을 추가한다)
  2. 첫 요인의 loading을 해석한다. (첫 factoring = 분해) - 요인들의 상관관계가 없고 loading에 제한이 없도록 만든다.
  3. 설명 가능한 최대의 solution을 얻기 위해 rotation을 적용해서 loading과 요인을 변환한다. - 직선 또는 사선 rotation

 

왜 그리고 어떻게 요인 분석에서 rotation을 사용하는가?

  • 대개 initial solution은 해석가능하지 않다.
  • 수학적 분석에서, initial solution은 임의적이다.
  • 어떤 요인들이 특정 기준에 따라 변환되는 trasnformation을 적용한다.
  • 기하학적인 trainsformation의 해석 때문에 이것은 rotation이라 불린다.
  • rotation의 두 가지 유형 : orthogonal(직선)과 oblique(사선)

 

Factor pattern matrix와 Factor structure matrix의 차이점은 무엇인가?

  • oblique rotation의 경우, 차별화되는 두 가지 loading 매트릭스가 존재한다;

- Factor pattern matrix : rotate된 요인 모델에서 loading을 포함하는 매트릭스

- Factor structure matrix : 측정 변수의 요인 상관관계를 포함하고 있는 매트릭스

 

PCA(principal components analysis)의 기본적인 개념은 무엇인가?

  • PCA는 데이터 축소를 위한 통계 기법이다.
  • 공분산 또는 다중 측정 변수들에 대한 상관관계 매트릭스에 기반을 둔 구조이다.
  • 여러 개의 상관된 관찰값들의 "요약된 변수"이다.
  • 다중공산성을 피하기 위해 사용되기도 한다. (ex. 다중 회귀 모형에서의 다중 독립 변수 - 여러 개의 독립 변수들이 높은 상관성을 가지고 있을 때)

 

스크리 검사(Scree plot), 카이저 법칙(Kaiser criterion) 그리고 평행 분석(Parallel analysis)를 사용하는 이유는 무엇인가?

  • 최적의 요인/구성원 숫자를 결정하기 위해
  • 스크리 검사 : 그래프의 경계를 찾고 Eigenvalues(고유치)를 사용해 컷오프하는 방식이다.
  • 카이저 법칙 : 변수는 최소한 1보다 크거나 같은 고유치를 갖고 있어야 한다.
  • 평행 분석 : 랜덤한 고유치