본문 바로가기

데이터 분석/통계4

기초통계 - 범주형 자료분석 ● 범주형 자료: 관측된 결과를 속성에 따라 몇 개의 범주로 분류하여 도수로 정리한 자료 ● 분할표: 각 변수의 범주를 나누어 관측도수를 표현하여 나타낸 표 정상 당뇨 정상 20 10 비만 10 20 ● 범주형 자료분석 방법 ▶ 카이제곱 검정 1. 적합도 검정 - 범주형으로 조사된 자료의 분석결과가 기존에 알려진 이론에 부합하는지 여부를 확인한다. 2. 독립성 검정 - 관측된 자료를 두 요인에 의해 분할하여 도수를 조사하고 두 요인 사이에 관련이 있는지 없는지(독립인지) 여부를 검정하는 것 3. 동일성 검정 - 범주형으로 조사된 두 개 이상의 모집단의 비율이 서로 동일한지 여부를 결정하는 것 ● 적합도 검정 과정 가설: $H_{0}: p_{0} = p_{10}, p_{1} = p_{20},···$ , $.. 2021. 2. 25.
기초 통계 - 상관분석과 회귀분석 두 변수 간의 관계성 - 선형성 : 두 변수 간의 직선의 관계 - ex) a가 1 증가하면 b가 2 증가한다. ▶ 얼마나 연관성이 있는가? - 단위, 평균의 크기에 영향을 받지 않기 위해 정규화된 측도를 이용하여 통계적 추론을 한다. ▶ 얼마나 직선의 관계가 있는가? (기울기는 중요하지 않다. 단위, 절편 등의 영향을 받기 때문에) 산점도와 선형성 - 기울기나 절편이 아닌 얼마나 직선에 가까운가? 를 확인한다. - 직선에 가까울수록 강한 상관관계를 갖는다. - 함께 증가하면 양의 상관관계, 하나가 증가할 때 다른 하나가 감소한다면 음의 상관관계를 갖는다. 공분산 두 확률변수 $X,Y$의 기댓값을 $\mu_{X},\mu_{Y}$라고 할 때 $X$가 증가함에 따라 $Y$가 증가하는지를 측정하는 측도 $$Co.. 2021. 2. 25.
기초통계 - 그룹간 평균비교 ● 대표적인 평균 비교 분석 방법 ● 모집단 분포에 대한 정규성 검정 검정방법 Shapiro-Wilk test Kolmogorov-Smirnov test 표본의 크기 표본 크기가 작을 때 표본 크기가 클 때 목적 정규분포의 적합성 임의의 분포에 대한 적합성 가설($H_{0}) 정규분포를 따른다 임의의 분포를 따른다. 한 그룹의 평균이 그 집단의 특성을 잘 대표하는가? ● 일표본 Z-검정($\sigma$를 알 때) 확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산 $\sigma^{2}$인 임의의 대표본 모집단 가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, , , t_{\alpha/2}(n_{1}+n_{2.. 2021. 2. 22.
기초통계 -1 용어 정리 ● 통계적 추론 - 추출된 표본에 내포된 정보를 분석하여 모집단의 여러 가지 특성에 대하여 합리적이고 과학적인 결론을 내리는 과정(추론, 가설검정) ● 모수(parameter) - 모집단(population)의 특성을 나타내는 값 (모평균, 모 분산 등) ● 관심사항 - 미지의 값에 대한 예상 or 확인되지 않는 사항에 대한 검증 (모수의 추정, 검정) ▶ 모집단 vs 표본 모집단 표본 평균 $\bar{x}$ $\mu$ 표준편차 $\sigma$ $s$ 분산 $\sigma^{2}$ $s^{2}$ ● 변동 계수 - 평균이 크게 다른 두 개 이상의 집단을 비교하고자 할 때, 또는 각 집단의 상대적 동질성을 비교할 때 이용한다. $$cv = \frac {s}{\bar {x}}$$ - 변동 계수(cv).. 2021. 2. 22.