본문 바로가기
데이터 분석/통계

기초 통계 - 상관분석과 회귀분석

by _avocado_ 2021. 2. 25.

두 변수 간의 관계성

 

 - 선형성 : 두 변수 간의 직선의 관계

     

       - ex) a가 1 증가하면 b가 2 증가한다.

 

▶ 얼마나 연관성이 있는가? - 단위, 평균의 크기에 영향을 받지 않기 위해 정규화된 측도를 이용하여 통계적 추론을 한다.

 

▶ 얼마나 직선의 관계가 있는가? (기울기는 중요하지 않다. 단위, 절편 등의 영향을 받기 때문에)

 

산점도와 선형성

 

 - 기울기나 절편이 아닌 얼마나 직선에 가까운가? 를 확인한다.

 

 - 직선에 가까울수록 강한 상관관계를 갖는다.

 

 - 함께 증가하면 양의 상관관계, 하나가 증가할 때 다른 하나가 감소한다면 음의 상관관계를 갖는다.

공분산

 

두 확률변수 $X,Y$의 기댓값을 $\mu_{X},\mu_{Y}$라고 할 때 $X$가 증가함에 따라 $Y$가 증가하는지를 측정하는 측도

$$Cov(X,Y) = E\left\{(X-\mu_{X})(Y-\mu_{Y})\right\}$$

 

● 공분산의 성질

 

▶  $Cov(X,Y) > 0$ : 양의 상관관계가 있다.

▶  $Cov(X,Y) < 0$ : 음의 상관관계가 있다.

▶  $Cov(X,Y) \neq 0$ : 선형의 관계가 없다.

 

- 단위에 영향을 받는다. Cov(aX,bY) = abCov(X,Y)

   따라서 공분산의 크기가 상관관계의 정도를 나타내지 못한다.(크다고 강한 상관관계가 아니다.)

 

Pearson 상관계수

 

- 공분산에서 단위 효과를 없애 두 확률변수의 상관관계의 정도를 나타낸 계수

$$\rho = r = Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)\sqrt{Var(Y)}}}$$

 

● 상관계수의 특징

 

$|r| \leq 1$

$r$이 1에 가까울수록 양의 상관관계가 강하다.

$r$이 -1에 가까울 수록 음의 상관관계가 강하다.

$r = 0$이면 연관성이 없거나, 선형의 관계가 없다.


상관 분석

- 모집단에서 두 개의 변수들 간의 통계적 관계성 추론

 

- 모상관 계수의 추정 및 검정(표본 검정)

 

- 정규성 검정이 먼저 이루어져야 한다.

 

● 상관계수의 추론

 

- 표본의 상관계수가 통계적으로 유의미한지를 판단

 

가설: $H_{0}: \rho=0, H_{1}: \text{not }H_{0}$

 

검정 통계량 $T= \sqrt{n-2}\tfrac{r}{\sqrt{1-r^{2}}}$

 

● 상관계수와 특정 값을 비교

 

가설: $H_{0}: \rho=\rho_{0}, H_{1}: \rho \neq \rho_{0}$

 

검정 통계량($Z$) : $$Z =\frac{Z_{r}-Z_{0}}{\sqrt{\frac{1}{n-3}}} \sim N(0,1) ,(Z_{r} = \tfrac{1}{2}\ln(\frac{1+r}{1-r}), Z_{0} = \tfrac{1}{2}\ln(\frac{1+\rho_{0}}{1-\rho_{0}}))$$

 

● 독립된 두 표본의 상관계수 비교

 

가설: $H_{0}: \rho_{1}=\rho_{2}, H_{1}: \rho_{1} \neq \rho_{2}$

 

검정통계량($Z$) : $$Z =\frac{Z_{1}-Z_{2}}{\sqrt{\frac{1}{n_{1}-3}+\frac{1}{n_{2}-3}}} \sim N(0,1) ,(Z_{1} = \tfrac{1}{2}\ln(\frac{1+r_{1}}{1-r_{1}}), Z_{2} = \tfrac{1}{2}\ln(\frac{1+r_{2}}{1-r_{2}}))$$


회귀분석

목적: 종속 변수(Y)독립 변수(X)의 값에 따라 어떻게 변하는지 선형 함수로 표현

 

종속 변수(dependent variable): 알고자 하는 값, Y값

 

독립 변수(independent variable): 실험자가 조작할 수 있는 값, X값

 

▶ 선형회귀식

$$y_{i} = \beta_{0}+\beta_{1}x_{1i}+\beta_{2}x_{2i}+···+\epsilon_{i}$$

- $\beta$들을 찾는 것이 목적, $\epsilon$ = 오차

오차에 대한 가정

$\epsilon_{i} \sim N(0,\sigma^{2})$

1. 정규성
2. 선형성
3. 독립성
4. 다중공선성
5. 등분산성

 

▶ 회귀분석의 가설

$H_{0}: \beta_{1}=\beta_{2}=···=0$ (모든 X들은 Y를 설명하는데 도움이 안 된다.)

$H_{1}: \text{Not } H_{0}$ (적어도 하나의 X는 Y를 설명하는데 도움이 된다.)

 

▶ 최소제곱법

 

- 관측값과 추정한 함수의 값의 차이($\epsilon$)의 제곱이 최소가 되게 하는 함수의 계수를 찾는 방법

$\sum (y_{i}-\bar{y})^{2} = \sum (\hat{y}_{i}-\bar{y})^{2} + \sum (y_{i}-\hat{y}_{i})^{2}$
SST SSR SSE($\sum \epsilon$)
고정된 값 클수록 좋다. 작을 수록 좋다.

● 회귀식에 대한 추론

 

회귀식 전체에 대한 추론: F-분포를 이용한다.(ANOVA와 비슷)

 

각각의 계수에 대한 추론: t-분포를 이용한다.

 

$R^{2}$ Score : 결정계수

 

얼마나 함수에 값들이 붙어 있는가?

 

1에 가까울수록 좋다.

$R^{2} = \frac{SSR}{SSE} = 1-\frac{SSE}{SST}$

 

● 독립변수의 선택

 

최종적인 선형 함수를 만들기 위해 함수에 들어갈 독립변수들을 선택하는 방법

 

1. 전진 선택법

- 절편만 있는 회귀모형(X를 아직 안 넣은)에 가장 유의미한 변수를 하나씩 추가해 가는 방법

 

2. 후진 소거법

- 모든 독립변수를 다 넣은 회귀모형에서 가장 유의미하지 않은 변수를 제거해 나가는 방법

 

3. 다단계 선택법

- 전진 선택 + 후진 소거

- 현 상태에서 가장 유의미한 변수를 선택하고 기존의 변수 중에 가장 유의미하지 않은 변수를 제거한다.

 

● 다중공선성

 

- 독립 변수 사이에 상관관계가 있을 때 회귀식은 유의미하지만 개별 회귀계수가 유의미하지 않을 수 있다.

 

▶ 다중공선성 확인 방법

 

- 독립 변수 간 상관계수 확인

- F 값이 매우 큰데, t 값이 작다면 의심한다.

- 분산팽창요인(VIF)가 10 이상이면 의심한다.

- 공차한계가 0.1 이하면 의심한다.

 

● 잔차 산점도를 이용한 회귀 가정 진단 (위에서 언급한 오차에 대한 가정 4가지 + 다중공선정)

 

● 가변수의 설정(수치형 데이터가 아닌 경우)

 

- 명목형 자료를 이용하여 회귀분석을 진행하는 방법

 

- ex) 성별(남/여), 흡연력(흡연/비흡연/금연)

 

- 2개로 나뉘는 경우 1개의 변수를 만든다. (0:남, 1:여)

 

- 3개 이상인 경우 1개 적은 변수의 개수를 만든다.(00:비흡연, 01:금연, 10:흡연, 1은 하나만 들어가야 한다.)

ex) 정상 / 과체중 / 비만 / 고도비만 으로 나뉘는 경우

1. 정상을 기본으로 설정

2. 4개의 범주 이므로 3개의 변수를 만든다. (과체중 / 비만 / 고도비만)

3. 각자 해당하는 변수에만 1을 넣고 나머지는 0을 넣는다. (기본값(정상)은 모두 0)

 

● 공분산 분석(ANCOVA)

 

- 회귀분석 중에 우리가 관심이 없는 독립변수가 종속변수에 미치는 영향을 제거하고 원하는 독립 변수로만 회귀분석을 진행하는 방법

 

ex) 교수의 강의력(종속 변수)을 가르친 학생들의 성적(독립 변수)으로 표현하고 싶다.

      학생들의 기본적인 지능(관심 없는 독립 변수)이 미치는 영향을 제거한 뒤 회귀분석을 하기 위해 ANCOVA를 실시한다.

 

 

'데이터 분석 > 통계' 카테고리의 다른 글

기초통계 - 범주형 자료분석  (0) 2021.02.25
기초통계 - 그룹간 평균비교  (0) 2021.02.22
기초통계 -1  (0) 2021.02.22

댓글