본문 바로가기

공부/통계

[통계] Statistical learning 통계적 학습

Statistical learning과 Statistical modeling의 가장 주요한 차이점은 무엇인가?

  • 정의(definition)의 차이
  • statistical modeling : 모델이 먼저 확정된다.
  • statistical learning : 모델은 data-driven이 목적이다.

 

 

Training-MSE 편향

 

만약 한 function이 완벽하게 training set에 맞아 들면, 이것은 진정한 프로세싱-미래의 데이터 예측-을 반영하지 못할 것이다. (편향 높음, high Bias)

 

 

 

Bias-varinace trade-off (편향-분산 트레이드 오프)에 대해 설명해보자

 

  • 대부분의 경우처럼, 우리가 더 유연한 방법을 사용하게 된다면 분산은 증가하고 편향은 감소한다. (variance↑, bias↓)
  • 관련된 두 개념들의 상대적인 변화는 MSE가 증가하는지 감소하는지를 결정한다.
  • 우리가 분석 방법의 유연성(flexibility)을 증가시킨다면, 편향은 분산보다 훨씬 빠르게 감소하는 경향을 보인다. → test MSE 기댓값이 감소한다.
  • 그러나 유연성은 편향에 작은 영향을 미치다가 어느 한순간 분산의 증가에 상당한 영향을 미치기 시작한다.

 

  • 데이터들에 과도한 맞춤 모델을 만들면 overfitting이 되고 만다. 이는 미래 데이터 예측이 부정확할 수 있으며 그 편차가 클 수 있다는 것을 말한다.
  • 유연성을 줄여 underfitting한 모델을 제시하면 경향성(tendency) 예측도가 떨어진다. (variance↓, bias

 

 

 

 

Parametric과 non-parametric testing의 차이점은 무엇인가?

 

  • Parametric model : 선형 회귀
  • 이것은 f(x)에 대한 선형 함수를 가정한다.
  • 장점 : 쉬운 fitting(적은 갯수의 계수들)과 통계 추론, 직관적인 해석
  • 단점 : f(x) 형태에 대한 강한 가정. 만약 f(x)를 위반하면 예측도가 낮아진다.

 

  • non-Parametric model
  • f(x)에 대한 가정이나 추측이 존재하지 않는다.
  • 예측에 대한 높은 유연성을 가진다.

공유하기

통계

글 요소