● 대표적인 평균 비교 분석 방법
● 모집단 분포에 대한 정규성 검정
검정방법 | Shapiro-Wilk test | Kolmogorov-Smirnov test |
표본의 크기 | 표본 크기가 작을 때 | 표본 크기가 클 때 |
목적 | 정규분포의 적합성 | 임의의 분포에 대한 적합성 |
가설($H_{0}) | 정규분포를 따른다 | 임의의 분포를 따른다. |
한 그룹의 평균이 그 집단의 특성을 잘 대표하는가?
● 일표본 Z-검정($\sigma$를 알 때)
확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산 $\sigma^{2}$인 임의의 대표본 모집단
가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, <)
검정 통계량: $Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$
기각역: $|z_{0}| \geq z_{\alpha/2}$ (가설에 따라 달라진다.)
● 일표본 t-검정($\sigma$를 모를 때, 정규분포라는 가정이 필요하다.)
확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산을 모르는 정규분포(소표본) 모집단
가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, <)
검정 통계량: $T = \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$
기각역: $|t_{0}| \geq t_{\alpha/2}(n-1)$ (가설에 따라 달라진다.)
두 집단의 평균 비교 (모분산을 모를 때)
가정
1. 정규성 - 두 집단은 정규분포를 따른다.
2. 독립성 - 두 집단은 서로 독립이다.
3. 등분산성 - 두 집단의 분산이 같다. (Levene 검정)
● 독립 이표본 t-검정
가설: $H_{0}$ - $\mu_{1} = \mu_{2}$, $H_{1}$ - $\mu_{1} \neq \mu_{2}$ (또는 >, <)
검정통계량: $$t_{0} = \frac{(\bar{y}_{1} - \bar{y}_{2})}{SE(\bar{y}_{1}-\bar{y}_{2})}= \frac{(\bar{y}_{1} - \bar{y}_{2})}{S_{p}\sqrt{(\frac{1}{n_{1}}+\frac{1}{n_{2}})}} \sim t(n_{1} + n_{2}-2), S_{p}^{2} = \frac{(n_{1}-1)S_{1}^{2} + (n_{2}-1)S_{2}^{2}}{(n_{1}-1) + (n_{2}-1)}$$
기각역: $|t_{0}| > t_{\alpha/2}(n_{1}+n_{2}-2)$
● 대응 표본 t-검정
- 독립이 아닌 짝을 이루는 표본으로부터 얻은 결과를 비교
- 표본의 수에 주의한다.
- ex) 약물을 투여하기 전, 후의 혈압 수치
가설: $H_{0}:\mu_{D} = 0, H_{1}: \mu_{D} <0 (\text{또는 }\neq,>)$ $\mu_{D}$ = 변화량
검정 통계량: $T = \frac{\bar{D}-\mu_{D}}{S_{D}\sqrt{n}} \sim t(n-1)$
기각역: $|t_{0}| > t_{\alpha}(n-1)$
▶ 카이제곱 분포($\chi^{2}$)
$X$가 표준 정규분포($N(0,1)$)를 따를 때,
$Q = X_{0}^{2}+X_{1}^{2}+···+X_{v}^{2}$는 자유도가 $v$인 카이제곱 분포($\chi^{2}(v)$)를 따른다.
▶ F 분포
$U \sim \chi^{2}(n_{1}), V \sim \chi^{2}(n_{2})$ 일 때, $Q = \frac{U/n_{1}}{V/n_{2}}$는 자유도가 $(n_{1},n_{2})$ 인 F 분포를 따른다.
두 개 이상의 그룹 간 평균 비교
가정
1. 선형성
2. 정규성 - 각 그룹들의 모수는 정규분포를 따른다.
3. 독립성 - 각 그룹은 독립적이다.
3. 등분산성 - 각 그룹의 분산은 같다.
● 평균 비교와 변동
기본 아이디어 : 그룹 간 변동이 그룹 내 변동의 합보다 작다면 두 평균은 같다고 할 수 있다.
가설: $H_{0} : \mu_{1}=\mu_{2}=···=\mu_{n}$ vs $H_{1} : \text{not } H_{0}$ (적어도 하나는 다르다.)
확률 분포
그룹 수, 표본 수 | k, n |
그룹 별 모평균 | $\mu_{i}$ |
그룹 원소(관측값) | $y_{ij}$, i그룹의 j번 째 원소 |
그룹 표본 평균 | $\bar{y}_{i}$ |
전체 표본 평균 | $\bar{y}_{total}$ |
검정 과정
총 편차 = 그룹 간 편차 + 그룹 내 편차
(관측값 - 전체 평균) = (그룹 표본 평균 - 전체 평균) + (관측값 - 그룹 표본 평균)
$(y_{ij} - \bar{y}_{total}) = (\bar{y}_{i} - \bar{y}_{total})+(y_{ij} - \bar{y}_{i})$
모든 관측값에 대해 편차를 더한다. (총합이 0이 되니 제곱하여 더한다.)
$\sum_{i=1}^{k}\sum_{j=1}^{n}(y_{ij}-\bar{y}_{total})^{2} = \sum_{i=1}^{k}\sum_{j=1}^{n}(\bar{y}_{i} - \bar{y}_{total})^{2} + \sum_{i=1}^{k}\sum_{j=1}^{n}(y_{ij} - \bar{y}_{i})^{2}$
# 우변 제곱할 때 생기는 2ab는 0이 된다.
위식을 간략하게 표현하면
SST = SStreat + SSE (SS = sum of squares)
ANOVA Table
sourece | SS | DF(자유도) | MS(자유도로 나눈 SS) | 검정통계량(F) |
그룹 간 편차 | SStreat | k - 1 | SStreat/(k-1) = MStreat | MStreat/MSE |
그룹 내 편차 | SSE | k * (n-1) | SSE/k*(n-1) = MSE | |
전체 | SST | n*k - 1 |
- 각 그룹은 정규분포를 따른다. 따라서 그룹 간 편차(SStreat)와 그룹 내 편차(SSE)는 카이제곱 분포를 따른다.
- SStreat와 SSE가 카이제곱 분포를 따르기 때문에 검정 통계량(F)은 F-분포를 따른다.
- 기본 아이디어에 기반하여 검정 통계량(F)이 크다면(기각역 $F_{\alpha}$ 보다) $H_{0}$ 를 기각한다.
사후 검정
- 여러 그룹에서 $H_{0}$가 기각되었다면 그룹 중 적어도 하나의 평균은 다른 그룹과 다르다.
- 어떤 두 그룹이 차이가 나는지를 알아보는 검정
- LSD, Duncan's LSR, SNK, Tukey's HSD Sheffe's method, Bonferroni method, FDR 등의 방법이 있다.
각 방법마다 특징과 용도가 다르니 상황에 맞는 방법을 사용한다.
'데이터 분석 > 통계' 카테고리의 다른 글
기초통계 - 범주형 자료분석 (0) | 2021.02.25 |
---|---|
기초 통계 - 상관분석과 회귀분석 (1) | 2021.02.25 |
기초통계 -1 (0) | 2021.02.22 |
댓글