본문 바로가기

공부

(13)
[파이썬] 변수 데이터 형과 인덱싱 (indexing) 변수의 데이터 형 (Data type) 정수형 int: 양의 정수, 0, 음의 정수 실수형 float: 실수로 나타내는 수, 예를 들면 소수점(decimal)이 있는 수 2.153 문자열형 string: 텍스트로 표시하는 글자 모음 부울형 boolean: TRUE, FALSE로만 표현 가능 리스트형 list: 여러 개의 데이터들을 모은 것 * Concatenation(결합)은 문자열에 대해서만 적용된다. ex. "Soja" + "Sauce" = "Soja Sauce" (책상 앞에 간장이 놓여져 있어서...ㅎㅎ) * 문자열(string)은 인덱스화(indexed)되는데, 매트랩과 달리 첫 글자는 0으로 인덱싱해야 한다. ex. 'S1'이라는 변수에 'BurgerKingistheBest'라는 문장을 부여했다..
[파이썬] K-MOOC 강좌로 기초 다지기 인턴을 하게 될 기관에서 파이썬 기본을 좀 배워왔으면 좋겠다고 해서 온라인 강의를 찾은 적이 있다. 대부분 온라인 강의는 유료인데, K-MOOC 강좌는 무료로 제공된다. 퀴즈나 과제를 평가 기준에 맞게 해내면 이수증도 발급해준다고 한다. 내가 듣는 파이썬 강좌 동영상은 시청 가능하지만 이미 1년 전에 종료된 상태로, 활성화되어 있지 않아 더 이상 이수증을 받을 수는 없다고 한다. 시험 기간 전부터 강의를 조금씩 들어왔는데 시험에 이사까지 하느라 4주차에서 멈춰섰다. 이제 슬슬 공부를 병행해야 할 때다. 그렇다고 파이썬이 아주 생소하지는 않았다. 구조적 차이가 조금 있긴 하지만 문법 자체가 매트랩과 판이하게 다른 것은 아니었기 때문이다. 이 강좌에서는 파이썬 설치법부터 기본적인 변수 할당과 응용을 돕는다...
[통계] Partial correlation 편(부분) 상관관계와 Multiple regression Partial correlation이란? - 어떤 두 변수 사이의 연관에서 영향을 줄 수 있는 하나 또는 그 이상의 변수를 통제해 관계의 strength와 direction을 결과로 나타내는 분석 방법이다. 통제 변수를 공변량 또는 3차 변수라고 일컫기도 한다. Partial correlation은 어떻게 측정하는가? - Simple linear regression (단순 선형 회귀) 을 이용해 측정하는 방법이 있다. 두 연관된 선형 회귀로부터 (Risidualize X for Z 그리고 Residualize Y for Z) 잔차를 얻고, 그 잔차 사이의 상관관계를 알아내는 방법이다. Multiple regression (다중 회귀) : 종속 변수와 최소 두 개 이상의 독립 변수의 관계를 분석하는 방법으..
[통계] Classification & Resampling Logistic regression이 아닌 LDA(linear discriminant analysis), 선형 판별 분석은 언제 사용되는가?두 개 이상의 response classes가 있을 때response classes가 잘 분리되어 있을 때 (logistic regression을 사용하면 불안정할 것이다) LDA의 기본 원리 각각의 class에 분산되어 있는 X를 모델로 하고, Pr(Y|X)를 얻기 위해 베이즈 확률론으로 flip 한다.linear와 quadratic discriminant analysis는 X의 class에 대한 분산이 정규 분포(Gaussian)로 나타난다고 추정한다.linear 데이터는 linear discriminant analysis가, non-linear 데이터는 quad..
[통계] Path Modeling 경로 모형 왜 경로 모형을 사용하는가? 경로 모형은 측정 변수들을 위한 구조적 모델이다. 관찰된 여러 변수들의 상관관계 구조에 대한 기저(메커니즘)를 가정과 관련해 설명한다. 경로 모형과 관련된 용어 Exogenous variable, 외생 변수 : 모델로 설명되지 않는 변수들. 하지만 모델 내의 다른 변수들을 설명한다. 다항 회귀식에서의 독립 변수(predictor, independent variable)와 상통하는 의미를 가진다. Endogenous variable, 내생 변수 : 모델로 설명되는 변수들. 다항 회귀식에서의 종속 변수(outcome, dependent variable)와 상통하는 의미를 가진다. Mediator variable, 매개 변수 : 같은 모델에서 exogenous와 endogenous..
[통계] Logistic regression 로지스틱 회귀분석 이분법적인 종속 변수를 예측하는 데에 linear model이 적합하지 않은 이유는? linear model을 적용하면 식에 따른 확률 변수 (probability variable)가 0과 1 사이의 범위를 넘어서기 때문이다. 로지스틱 회귀 모형을 이용한 종속 변수의 유형은 연속적이라기보다 이산형이다. Logistic regression 가정에 맞지 않는 것은? Normal distribution of residuals; 잔차의 정규분포. 평균값은 항상 0과 1 사이이다. Homoscedasticity of variance; 등분산성. 이 분산은 Y값에 따라 달라진다. → 이 두 가정이 위반되기 때문에, 계수 측정에 대한 표준 편차가 편향된다. 로지스틱 회귀를 나타내는 세 가지 방법 이 식의 좌변은 Y를..
[통계] Categorical regression 범주형 회귀분석 Categorical variable의 유형 Dichotomous variable : 2개의 카테고리형 변수 (ex. 성별 - 남/녀, 답변 - Yes/No) Polytomous variable : 2개 이상의 카테고리형 변수 (ex. 만족도 척도 - (1) 매우 만족한다 (2) 거의 만족한다 (3) 보통이다 ... (5) 만족하지 않는다) 회귀 개념에서의 Categorical variable은 Coding variable 형태를 따른다. 일반적으로 요구되는 Coding variable은 카테고리의 수에서 [C-1]의 갯수다. (ex. 3개의 학교 - 1 = 2개의 coding variable) Categorical regression의 세 가지 코딩 구조 Dummy coding; 카테고리 변수들을 이분..
[통계] 다변량 통계를 위한 기본적인 terminology Univariate와 Bivariate 그리고 Multivariate methods :Univariate methods : 데이터가 오직 한 가지 variable을 가지고 있을 때 적용된다. 인과 관계와 상관 관계가 없다. ex. 전집 variance를 알고 있을 때 One-sample z-test, χ2‐test for one way tables (일원 카이제곱 검정)Bivariate methods : 데이터가 두 가지 variables를 가지고 있을 때 적용된다. Variables 사이의 관계를 분석한다. ex. 독립 표본 t 검정 (집단 간 평균 차이를 알아보는 분석법), 상관 분석, 일원 배치 분산 분석, 단순 회귀 분석Multivariate methods : 데이터가 최소 세 개의 variabl..