본문 바로가기
데이터 분석/통계

기초통계 - 그룹간 평균비교

by _avocado_ 2021. 2. 22.

● 대표적인 평균 비교 분석 방법

 

 

● 모집단 분포에 대한 정규성 검정

검정방법 Shapiro-Wilk test Kolmogorov-Smirnov test
표본의 크기 표본 크기가 작을 때 표본 크기가 클 때
목적 정규분포의 적합성 임의의 분포에 대한 적합성
가설($H_{0}) 정규분포를 따른다 임의의 분포를 따른다.

한 그룹의 평균이 그 집단의 특성을 잘 대표하는가?

● 일표본 Z-검정($\sigma$를 알 때)

 

확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산 $\sigma^{2}$인 임의의 대표본 모집단

 

가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, <)

 

검정 통계량: $Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$

 

기각역: $|z_{0}| \geq z_{\alpha/2}$ (가설에 따라 달라진다.)

 

 

● 일표본 t-검정($\sigma$를 모를 때, 정규분포라는 가정이 필요하다.)

 

확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산을 모르는 정규분포(소표본) 모집단

 

가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, <)

 

검정 통계량: $T = \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$

 

기각역: $|t_{0}| \geq t_{\alpha/2}(n-1)$ (가설에 따라 달라진다.)


두 집단의 평균 비교 (모분산을 모를 때)

가정
1. 정규성 - 두 집단은 정규분포를 따른다.
2. 독립성 - 두 집단은 서로 독립이다.
3. 등분산성 - 두 집단의 분산이 같다. (Levene 검정)

● 독립 이표본 t-검정

 

가설: $H_{0}$ - $\mu_{1} = \mu_{2}$, $H_{1}$ - $\mu_{1} \neq \mu_{2}$ (또는 >, <)

 

검정통계량: $$t_{0} = \frac{(\bar{y}_{1} - \bar{y}_{2})}{SE(\bar{y}_{1}-\bar{y}_{2})}= \frac{(\bar{y}_{1} - \bar{y}_{2})}{S_{p}\sqrt{(\frac{1}{n_{1}}+\frac{1}{n_{2}})}} \sim t(n_{1} + n_{2}-2), S_{p}^{2} = \frac{(n_{1}-1)S_{1}^{2} + (n_{2}-1)S_{2}^{2}}{(n_{1}-1) + (n_{2}-1)}$$

 

기각역: $|t_{0}| > t_{\alpha/2}(n_{1}+n_{2}-2)$

 

● 대응 표본 t-검정

 

- 독립이 아닌 짝을 이루는 표본으로부터 얻은 결과를 비교

 

- 표본의 수에 주의한다.

 

- ex) 약물을 투여하기 전, 후의 혈압 수치

 

가설: $H_{0}:\mu_{D} = 0, H_{1}: \mu_{D} <0  (\text{또는 }\neq,>)$ $\mu_{D}$ = 변화량

 

검정 통계량: $T = \frac{\bar{D}-\mu_{D}}{S_{D}\sqrt{n}} \sim t(n-1)$

 

기각역: $|t_{0}| > t_{\alpha}(n-1)$

 


▶ 카이제곱 분포($\chi^{2}$)

 

$X$가 표준 정규분포($N(0,1)$)를 따를 때,

 

$Q = X_{0}^{2}+X_{1}^{2}+···+X_{v}^{2}$는 자유도가 $v$인 카이제곱 분포($\chi^{2}(v)$)를 따른다.

 

▶ F 분포

 

$U \sim \chi^{2}(n_{1}), V \sim \chi^{2}(n_{2})$ 일 때, $Q = \frac{U/n_{1}}{V/n_{2}}$는 자유도가 $(n_{1},n_{2})$ 인 F 분포를 따른다.


두 개 이상의 그룹 간 평균 비교

가정
1. 선형성
2. 정규성 - 각 그룹들의 모수는 정규분포를 따른다.
3. 독립성 - 각 그룹은 독립적이다.
3. 등분산성 - 각 그룹의 분산은 같다.

● 평균 비교와 변동

 

기본 아이디어 : 그룹 간 변동그룹 내 변동의 합보다 작다면 두 평균은 같다고 할 수 있다.

 

가설: $H_{0} : \mu_{1}=\mu_{2}=···=\mu_{n}$ vs $H_{1} : \text{not } H_{0}$ (적어도 하나는 다르다.)

 

확률 분포

그룹 수, 표본 수 k, n
그룹 별 모평균 $\mu_{i}$
그룹 원소(관측값) $y_{ij}$, i그룹의 j번 째 원소
그룹 표본 평균 $\bar{y}_{i}$
전체 표본 평균 $\bar{y}_{total}$

검정 과정

총 편차 = 그룹 간 편차 + 그룹 내 편차

(관측값 - 전체 평균) = (그룹 표본 평균 - 전체 평균) + (관측값 - 그룹 표본 평균)

$(y_{ij} - \bar{y}_{total}) = (\bar{y}_{i} - \bar{y}_{total})+(y_{ij} - \bar{y}_{i})$

모든 관측값에 대해 편차를 더한다. (총합이 0이 되니 제곱하여 더한다.)

$\sum_{i=1}^{k}\sum_{j=1}^{n}(y_{ij}-\bar{y}_{total})^{2} = \sum_{i=1}^{k}\sum_{j=1}^{n}(\bar{y}_{i} - \bar{y}_{total})^{2} + \sum_{i=1}^{k}\sum_{j=1}^{n}(y_{ij} - \bar{y}_{i})^{2}$

# 우변 제곱할 때 생기는 2ab는 0이 된다.

위식을 간략하게 표현하면

SST = SStreat + SSE (SS = sum of squares)

ANOVA Table

sourece SS DF(자유도) MS(자유도로 나눈 SS) 검정통계량(F)
그룹 간 편차 SStreat k - 1 SStreat/(k-1) = MStreat MStreat/MSE
그룹 내 편차 SSE k * (n-1) SSE/k*(n-1) = MSE  
전체 SST n*k - 1    

- 각 그룹은 정규분포를 따른다. 따라서 그룹 간 편차(SStreat)와 그룹 내 편차(SSE)는 카이제곱 분포를 따른다.

 

- SStreat와 SSE가 카이제곱 분포를 따르기 때문에 검정 통계량(F)은 F-분포를 따른다.

 

- 기본 아이디어에 기반하여 검정 통계량(F)이 크다면(기각역 $F_{\alpha}$ 보다) $H_{0}$ 를 기각한다.


사후 검정

- 여러 그룹에서 $H_{0}$가 기각되었다면 그룹 중 적어도 하나의 평균은 다른 그룹과 다르다.

 

- 어떤 두 그룹이 차이가 나는지를 알아보는 검정

 

- LSD, Duncan's LSR, SNK, Tukey's HSD Sheffe's method, Bonferroni method, FDR 등의 방법이 있다.

  각 방법마다 특징과 용도가 다르니 상황에 맞는 방법을 사용한다. 

'데이터 분석 > 통계' 카테고리의 다른 글

기초통계 - 범주형 자료분석  (0) 2021.02.25
기초 통계 - 상관분석과 회귀분석  (1) 2021.02.25
기초통계 -1  (0) 2021.02.22

댓글