용어 정리
● 통계적 추론
- 추출된 표본에 내포된 정보를 분석하여 모집단의 여러 가지 특성에 대하여 합리적이고 과학적인 결론을 내리는 과정(추론, 가설검정)
● 모수(parameter)
- 모집단(population)의 특성을 나타내는 값 (모평균, 모 분산 등)
● 관심사항
- 미지의 값에 대한 예상 or 확인되지 않는 사항에 대한 검증 (모수의 추정, 검정)
▶ 모집단 vs 표본
모집단 | 표본 | |
평균 | $\bar{x}$ | $\mu$ |
표준편차 | $\sigma$ | $s$ |
분산 | $\sigma^{2}$ | $s^{2}$ |
● 변동 계수
- 평균이 크게 다른 두 개 이상의 집단을 비교하고자 할 때, 또는 각 집단의 상대적 동질성을 비교할 때 이용한다.
$$cv = \frac {s}{\bar {x}}$$
- 변동 계수(cv)가 작으면 재현성(reproducibility)이 높고 variability가 낮다.
추정
● 추정(estimation)
- 표본에 기초해 조사된 통계량을 모집단의 모수에 대한 근삿값으로 사용하는 것
ex) 수험생 5000명을 랜덤 표본 추출하여 대학수능시험 성적을 조사 후 전체 수험생의 평균성적은 얼마라고 할 수 있을 까?
● 추정량(estimator)
- 모수 추정에 사용되는 통계량(표본의 함수)
ex) 표본 평균은 모평균의 추정량이다.
● 추정치(estimate)
- 추정량에 관측값을 대입하여 얻어진 추정량의 값
▶ 점추정
- 모수를 표본에 기초하여 하나의 값으로 추정하는 것
- 점추정량, 점추정치, 표준오차(SE, 추정량의 표준편차)
▶ 구간 추정
- 모수가 포함되리라 여겨지는 구간을 표본으로부터 구해내는 것
- 모수가 표본으로 부터 계산된 값 안에 포함될 확률에 따라 신뢰구간 존재
● 통계량이 의미가 있으려면
통계량 >> 표준오차(통계량)를 만족해야 한다.
추정 방법
▶ 모평균의 점추정
모평균($\mu$)의 점추정량: $\bar{X}$
모분산($\sigma^{2}$)의 추정량: $S^{2} = \frac{1}{n-1}\sum _{i=1}^{n}(X_{i}-\bar{X})$
▶ 모평균의 구간추정(대표본)
표본 평균의 분포 = $N(\mu,\frac{\sigma^{2}}{n})$
$Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ 이 성립한다.
- 신뢰구간 : $100(1-\alpha)%$의 신뢰구간
$$(\bar{x}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}} , \bar{x}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}})$$
▶ 모평균의 구간추정(소표본)
- 모집단의 분포가 정규분포라는 가정이 필요
1. 모분산($\sigma^{2}$)을 아는 경우 - 대표본과 같은 구간으로 추정
2. 모분산을 모르는 경우(t-분포)
$$t_{(n-1)} = \frac{\bar{X}-\mu}{S/\sqrt{n}}$$
● t-분포의 특성
- 0을 기준으로 좌우대칭
- 자유도에 따라 형태가 달라진다.(자유도가 무한대가 되면 정규분포가 된다.)
- 꼬리 부분이 정규분포보다 두껍다.
● 자유도가 $ r$인 t-분포를 따르는 확률변수 $T$를 $T \sim t(r)$ 이라 표기한다.
- $P(T >x) = \alpha$를 만족하는 값을 $t_{\alpha}(r)$로 표기한다.
- 신뢰구간 : $100(1-\alpha)%$의 신뢰구간
$$ (\bar{X} - t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}},\bar{X}+t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}})$$
▶ 중심 극한 정리
- 모집단의 분포와 상관없이 표본의 크기가 충분히 크다면(>30) 표본 평균의 분포는 근사적으로 정규분포를 따르게 된다.
가설 검정
● 가설 : 모집단의 특성에 대한 주장 또는 추측 (분포의 모양, 모수의 크기 등)
● 통계적 가설 검정
- 가설을 설정하고 표본 관찰을 통해 가설을 채택, 기각하는 결정을 내리는 분석방법
- 입증되지 않은 주장에 대해서 실험, 관측 결과가 일어날 확률에 기초해서 그 타당성을 확인하는 것
1. 귀무가설($H_{0}$)
- 기존에 알려진 사실을 간단하고 구체적으로 표현한 가설
- 가설검정 시에 직접 검정의 대상이 되는 가설
2. 대립 가설($H_{1}$)
- 실험자가 사실임을 입증하고자 하는 가설
- 자료로부터 강력한 증거에 의하여 입증하고자 하는 가설
- 검정 통계량 : $H_{0}$ 와 $H_{1}$ 중 하나를 선택하는 데 사용되는 통계량(기준 값)
- 기각역($H_{0}$)를 기각하거나 채택하게 하는 기준)
ex) 1반 학생들의 성적이 2반 학생들의 성적보다 높은 지를 알아보기 위한 검정
$H_{0}$ : 1반과 2반의 성적 차이는 없다.
$H_{1}$ : 1반 학생들의 성적이 2반 학생들보다 높다.
검정 통계량 : 성적
기각역: 성적의 평균이 5점 이상 높다면 1반의 성적이 더 좋다고 판단한다. ($H_{0}$를 기각한다.)
● 가설 검정의 오류
제1종 오류($\alpha$) : $H_{0}$가 사실일 때, 기각하는 오류
제2종 오류($\beta$) : $H_{0}$가 거짓일 때, 채택하는 오류
● 검정력
- Power of test = $1-\beta$
- 값이 클수록 신뢰도가 증가한다.
● 유의 수준과 유의 확률
- 유의 수준 : 제1종 오류를 범할 확률의 최대 허용치 (ex. 신뢰도 95% 라고 하면 유의 수준은 0.05(5%)가 된다.)
- 유의 확률 : $H_{0}$가 맞다고 가정했을 때 관찰된 결과가 나타날 확률
▶ 유의 확률이 유의 수준보다 작다면 $H_{0}$를 기각한다.
$H_{0}$가 맞다고 했을 때 관측된 결과가 나올 확률이 0.01(1%)이라면 유의 수준(0.05)에서는 기각된다.
'데이터 분석 > 통계' 카테고리의 다른 글
기초통계 - 범주형 자료분석 (0) | 2021.02.25 |
---|---|
기초 통계 - 상관분석과 회귀분석 (1) | 2021.02.25 |
기초통계 - 그룹간 평균비교 (0) | 2021.02.22 |
댓글