Statistical learning과 Statistical modeling의 가장 주요한 차이점은 무엇인가?
- 정의(definition)의 차이
- statistical modeling : 모델이 먼저 확정된다.
- statistical learning : 모델은 data-driven이 목적이다.
Training-MSE 편향
만약 한 function이 완벽하게 training set에 맞아 들면, 이것은 진정한 프로세싱-미래의 데이터 예측-을 반영하지 못할 것이다. (편향 높음, high Bias)
Bias-varinace trade-off (편향-분산 트레이드 오프)에 대해 설명해보자
- 대부분의 경우처럼, 우리가 더 유연한 방법을 사용하게 된다면 분산은 증가하고 편향은 감소한다. (variance↑, bias↓)
- 관련된 두 개념들의 상대적인 변화는 MSE가 증가하는지 감소하는지를 결정한다.
- 우리가 분석 방법의 유연성(flexibility)을 증가시킨다면, 편향은 분산보다 훨씬 빠르게 감소하는 경향을 보인다. → test MSE 기댓값이 감소한다.
- 그러나 유연성은 편향에 작은 영향을 미치다가 어느 한순간 분산의 증가에 상당한 영향을 미치기 시작한다.
- 데이터들에 과도한 맞춤 모델을 만들면 overfitting이 되고 만다. 이는 미래 데이터 예측이 부정확할 수 있으며 그 편차가 클 수 있다는 것을 말한다.
- 유연성을 줄여 underfitting한 모델을 제시하면 경향성(tendency) 예측도가 떨어진다. (variance↓, bias↑)
Parametric과 non-parametric testing의 차이점은 무엇인가?
- Parametric model : 선형 회귀
- 이것은 f(x)에 대한 선형 함수를 가정한다.
- 장점 : 쉬운 fitting(적은 갯수의 계수들)과 통계 추론, 직관적인 해석
- 단점 : f(x) 형태에 대한 강한 가정. 만약 f(x)를 위반하면 예측도가 낮아진다.
- non-Parametric model
- f(x)에 대한 가정이나 추측이 존재하지 않는다.
- 예측에 대한 높은 유연성을 가진다.
공유하기
통계
글 요소
'공부 > 통계' 카테고리의 다른 글
[통계] Categorical regression 범주형 회귀분석 (4) | 2020.02.07 |
---|---|
[통계] 다변량 통계를 위한 기본적인 terminology (2) | 2020.02.07 |
[통계] SEM(structure equation modeling), 구조 방정식 모형 (0) | 2020.02.06 |
[통계] Factor analysis 요인 분석 (0) | 2020.02.06 |
[통계] Multilevel regression 다층 모형 회귀 (0) | 2020.02.06 |