본문 바로가기

파이썬/빅분기

범주형 자료 분석 - t검정, 카이제곱검정, 분산분석

범주형 자료란 범주 또는 집단으로 나누어진 자료로 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 한다. 독립변수와 종속변수 중 어느 것이 범주형 자료인지에 따라 분석 방법이 달라진다.

 

독립변수 종속변수 분석방법
범주형 연속형 t-검정 / 분산분석(ANOVA)
범주형 범주형 분할표 분석 / 카이제곱 검정 / 피셔의 정확도 검정
연속형 범주형 로지스틱 회귀 분석

 

1. t-검정

t-test는 두 집단 간 평균(대응표본 t-test는 한 집단)을 비교하는 모수적 통계 방법이다. t분포를 이용해 가설을 검정하고 정규성, 등분산성, 독립성을 가정한다. 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본의 표본분산, 표본표준편차로 검정하는 방식이다.

 

30개 이하의 비교적 적은 수의 표본에 대해 활용하며 p-value(유의확률)과 유의수준을 비교해 표본평균이 기각역에 존재하는지 유무를 파악하여 귀무가설을 기각 혹은 채택한다.

단일표본 t-test 표본의 평균으로 모집단의 평균을 검정
독립표본 t-test 서로 다른 두 집단의 평균의 차이를 검정
대응표본 t-test 동일한 집단의 사전 사후 차이를 검정

(1)단일표본 t-test

H0: 모집단의 평균은 μ와 같다.

H1: 모집단의 평균은 μ와 같지 않다.

 

(2)독립표본 t-test

H0: 두 집단의 평균이 같다.

H1: 두 집단의 평균이 같지 않다.

 

(3)대응표본 t-test

H0: 사전 평균과 사후 평균이 같다.H1: 사전 평균과 사후 평균이 같지 않다.

 

 

2. 분산분석(ANOVA)

분산분석은 두 개 이상의 집단의 평균을 비교하는 모수적 통계방법으로 F-분포를 이용해 가설을 검정한다. 정규성, 등분산성, 독립성을 가정한다. 

 

정규성 가정 각 m개의 모집단에서 변인(random sample) Y는 정규분포를 따른다.
각 모집단에서 Y의 평균은 다를 수 있다.
등분산성 분산의 동질성 가정
변인 Y의 모분산은 각각의 모집단에서 동일하다.
독립성 각 m개의 모집단에서 크기가 각각 n1, n2 ... nm인 표본들이 독립적으로 표집된다.

 

(1)일원분산분석(one-way ANOVA)

일원분산분석은 종속변인이 1개, 독립변인이 1개인 경우에 사용한다.

 

H0: 모든 집단의 평균이 같다.H1: 적어도 하나의 집단의 평균이 같지 않다.

 

ex)한중일 국가 간 10세 남아의 체중 비교독립변인: 10세 남아 / 종속변인: 체중

 

(2)이원분산분석(two-way ANOVA)

독립변인이 2개 이상인 경우에 집단 간 차이가 유의한지 검증하는데 사용한다.

 

H0: 두 변수는 상호작용 효과가 없다.H1: 두 변수는 상호작용 효과가 있다.

 

ex)한중일 국가 간 성별과 학력에 따른 체중 비교독립변인: 성별, 학력 / 종속변인: 체중

 

(3)다변량 분산분석(MANOVA)

종속변인이 2개 이상일 때 집단 간 유의미한 차이를 검정하는 방법이다. 독립변인이 1개이면 one-way MANOVA, 독립변인이 2개이면 two-way MANOVA에 해당한다.

 

범주형 독립변수에 대한 평균벡터 차이를 분석한다. 종속변수 간에 상관관계가 있는 경우에는 결합된 차이를 확인할 수 있고, 상관관계가 없다면 개별로 분산분석을 수행해야 한다.

 

H0: 모든 집단의 평균벡터가 같다.H1: 적어도 하나의 집단의 평균벡터가 같지 않다.

 

(4)공분산분석(ANCOVA)

특정한 독립변인을 중점에 두고 나머지 독립변인은 공변량으로 분석하는 방법

 

 

3. 분할표 분석

분할표는 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로 두 변수가 모두 범주형일 때 빈도 분포표를 작성해 변수 간 상호관련성을 분석하는 방법이다.

 

  사건 발생 사건 미발생
A집단 a b a+b
B집단 c d c+d

 

(1)상대위험도(Relative Risk)상대위험도는 두 집단의 사건발생 확률의 비이다.

RR = A집단의 사건발생 확률/B집단의 사건발생 확률

 

(2)승산비/오즈비(Odds Ratio)오즈는 특정 집단에 대한 사건발생 확률과 사건이 발생하지 않을 확률의 비이다. 만약 오즈가 4라면 어떤 사건이 발생할 확률이 발생하지 않을 확률의 4배라는 의미이다.

 

Odds(A) = a/b

Odds(B) = c/d

Odds Ratio = ad/bc

 

상대위험도<1 오즈비<1 A집단의 사건 발생 확률이 낮음
상대위험도=1 오즈비=1 두 변수는 독립
상대위험도>1 오즈비>1 A집단의 사건 발생 확률이 높음

 

 

4. 카이제곱 검정

카이제곱 검정은 범주형 자료 간 차이를 분석하는 모수적 통계 방법이다. 

 

(1)적합도 검정

하나의 범주형 변수에 대해 데이터가 특정 분포를 만족하는지 검정. 피어슨의 카이제곱 검정이라고도 부름.

 

H0: 분포가 기대 분포와 같다

H1: 분포가 기대 분포와 같지 않다

 

ex) 3개의 서로 다른 공장라인에서 발생하는 불량률은 1:2:3으로 나타난다.

 

(2)동질성 검정

 

서로 다른 집단에 대한 범주형 변수의 분포가 동질인지 검정. 두 범주형 변수가 서로 독립이 아니어도 분포는 동질이 아닐 수 있다.

 

H0: 두 집단의 확률 분포가 같다

H1: 두 집단의 확률 분포가 같지 않다.

 

ex)성별에 따라 선호하는 자동차 모델이 다르다.

 

(3)독립성 검정

서로 다른 집단에 대한 두 범주형 변수가 서로 연관되어 있는지 검정.

연속형 변수 > 상관분석

범주형 변수 > 독립성 검정

 

H0: 두 변수는 서로 독립이다.(=연관성이 없다)

H1: 두 변수는 서로 독립이 아니다.(=연관성이 있다)

 

ex)성별과 선호하는 자동차 모델 간에 상관관계가 있다.

 

 

5. 피셔의 정확성 검정

교차표를 활용하기 때문에 교차분석이라고도 하며 카이제곱 독립성 검정과 동일하게 두 범주형 변수 간의 연관성을 검정하는 방법이다. 범주형 데이터에서 초기하분포에 기반해 정확한 p-value를 계산하며, 가능한 모든 경우의 수를 직접 확인한다.

 

 

샘플 수가 너무 적거나 카테고리가 너무 많아서 테이블의 도수가 극도로 작아지는 경우에 주로 사용한다. 보통 기대빈도가 5보다 작은 셀이 20%를 넘으면 카이제곱 검정보다 피셔의 정확성 검정을 사용한다.

 

 

가설은 카이제곱 독립성 검정과 동일하다.

 

H0: 두 변수는 연관성이 없다.

H1: 두 변수는 연관성이 있다.