본문 바로가기
데이터 분석/통계

기초통계 - 범주형 자료분석

by _avocado_ 2021. 2. 25.

● 범주형 자료: 관측된 결과를 속성에 따라 몇 개의 범주로 분류하여 도수로 정리한 자료

 

● 분할표: 각 변수의 범주를 나누어 관측도수를 표현하여 나타낸 표

  정상 당뇨
정상 20 10
비만 10 20

● 범주형 자료분석  방법

 

▶ 카이제곱 검정

 

1. 적합도 검정

- 범주형으로 조사된 자료의 분석결과가 기존에 알려진 이론에 부합하는지 여부를 확인한다.

 

2. 독립성 검정

- 관측된 자료를 두 요인에 의해 분할하여 도수를 조사하고 두 요인 사이에 관련이 있는지 없는지(독립인지) 여부를 검정하는 것

 

3. 동일성 검정

- 범주형으로 조사된 두 개 이상의 모집단의 비율이 서로 동일한지 여부를 결정하는 것

 

● 적합도 검정 과정

 

가설: $H_{0}: p_{0} = p_{10}, p_{1} = p_{20},···$ , $H_{1}: \text{not }H_{0}$

 

검정통계량: $\chi ^{2}=\sum_{i=1}^{k}\frac{(n_{i}-np_{i0})^{2}}{np_{i0}} \sim \chi^{2}(k-1)$

 

기각역: $\chi_{0}^{2}>\chi_{\alpha}^{2}(k-1)$ 이면 $H_{0}$ 기각

 

● 독립성, 동질성 검정 과정

 

가설: $H_{0}: p_{ij} = p_{i} \times p_{j}$ , $H_{1}: \text{not }H_{0}$

 

검정통계량: $\chi^{2} = \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(n_{ij}-np_{i.}p_{.j})^{2}}{np_{i.}p_{.j}} \sim \chi^{2}((r-1)(c-1))$

 

기각역: $\chi_{0}^{2} > \chi_{\alpha}^{2}((r-1)(c-1))$ 이면 $H_{0}$기각


여러가지 검정

 

● 피셔의 정확 검정

 

- 기대 빈도가 5미만인 cell이 전체의 20%를 넘는 경우 카이제곱 대신 사용

 

- 2x2 분할표의 경우 카이제곱 검정 대신 사용한다.

 

- sample size가 작은 경우 사용한다.

 

● 맥니마 검정

 

- 대응 표본자료에 대한 검정

 

● CMH 등


교차표에서 연관성 측도

  질병발생 정상
위험인자 A B
대조군 C D

▶ Relative Risk(RR) : $\frac{\text{위험인자가 있는 경우 질병 발생 비율}}{\text{위험인자가 없는 경우 질병 발생 비율}}$

$$RR = \frac{a/(a+b)}{c/(c+d)}$$

- RR 값이 클 수록 위험인자와 질병 간 연관성이 크다.

 

- 위험인자가 있을 때가 없을 때보다 질병에 걸릴 확률이 RR배 이다.

 

▶ Odds Ratio(OR): $\frac{\text{질병이 있을 때 위험인자 오즈}}{\text{질병이 없을 때 위험인자 오즈}}$

$$OR = \frac{a/c}{b/d}$$

- 오즈 : 질병 중 위험인자/질병 중 대조군

 

- case-control 연구에서 사용된다. 상대위험도를 나타낸다. (클 수록 연관성이 있다.)

 

 

'데이터 분석 > 통계' 카테고리의 다른 글

기초 통계 - 상관분석과 회귀분석  (1) 2021.02.25
기초통계 - 그룹간 평균비교  (0) 2021.02.22
기초통계 -1  (0) 2021.02.22

댓글