범주형 자료란 범주 또는 집단으로 나누어진 자료로 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 한다. 독립변수와 종속변수 중 어느 것이 범주형 자료인지에 따라 분석 방법이 달라진다.
독립변수 | 종속변수 | 분석방법 |
범주형 | 연속형 | t-검정 / 분산분석(ANOVA) |
범주형 | 범주형 | 분할표 분석 / 카이제곱 검정 / 피셔의 정확도 검정 |
연속형 | 범주형 | 로지스틱 회귀 분석 |
1. t-검정
t-test는 두 집단 간 평균(대응표본 t-test는 한 집단)을 비교하는 모수적 통계 방법이다. t분포를 이용해 가설을 검정하고 정규성, 등분산성, 독립성을 가정한다. 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본의 표본분산, 표본표준편차로 검정하는 방식이다.
30개 이하의 비교적 적은 수의 표본에 대해 활용하며 p-value(유의확률)과 유의수준을 비교해 표본평균이 기각역에 존재하는지 유무를 파악하여 귀무가설을 기각 혹은 채택한다.
단일표본 t-test | 표본의 평균으로 모집단의 평균을 검정 |
독립표본 t-test | 서로 다른 두 집단의 평균의 차이를 검정 |
대응표본 t-test | 동일한 집단의 사전 사후 차이를 검정 |
(1)단일표본 t-test
H0: 모집단의 평균은 μ와 같다.
H1: 모집단의 평균은 μ와 같지 않다.
(2)독립표본 t-test
H0: 두 집단의 평균이 같다.
H1: 두 집단의 평균이 같지 않다.
(3)대응표본 t-test
H0: 사전 평균과 사후 평균이 같다.H1: 사전 평균과 사후 평균이 같지 않다.
2. 분산분석(ANOVA)
분산분석은 두 개 이상의 집단의 평균을 비교하는 모수적 통계방법으로 F-분포를 이용해 가설을 검정한다. 정규성, 등분산성, 독립성을 가정한다.
정규성 가정 | 각 m개의 모집단에서 변인(random sample) Y는 정규분포를 따른다. 각 모집단에서 Y의 평균은 다를 수 있다. |
등분산성 | 분산의 동질성 가정 변인 Y의 모분산은 각각의 모집단에서 동일하다. |
독립성 | 각 m개의 모집단에서 크기가 각각 n1, n2 ... nm인 표본들이 독립적으로 표집된다. |
(1)일원분산분석(one-way ANOVA)
일원분산분석은 종속변인이 1개, 독립변인이 1개인 경우에 사용한다.
H0: 모든 집단의 평균이 같다.H1: 적어도 하나의 집단의 평균이 같지 않다.
ex)한중일 국가 간 10세 남아의 체중 비교독립변인: 10세 남아 / 종속변인: 체중
(2)이원분산분석(two-way ANOVA)
독립변인이 2개 이상인 경우에 집단 간 차이가 유의한지 검증하는데 사용한다.
H0: 두 변수는 상호작용 효과가 없다.H1: 두 변수는 상호작용 효과가 있다.
ex)한중일 국가 간 성별과 학력에 따른 체중 비교독립변인: 성별, 학력 / 종속변인: 체중
(3)다변량 분산분석(MANOVA)
종속변인이 2개 이상일 때 집단 간 유의미한 차이를 검정하는 방법이다. 독립변인이 1개이면 one-way MANOVA, 독립변인이 2개이면 two-way MANOVA에 해당한다.
범주형 독립변수에 대한 평균벡터 차이를 분석한다. 종속변수 간에 상관관계가 있는 경우에는 결합된 차이를 확인할 수 있고, 상관관계가 없다면 개별로 분산분석을 수행해야 한다.
H0: 모든 집단의 평균벡터가 같다.H1: 적어도 하나의 집단의 평균벡터가 같지 않다.
(4)공분산분석(ANCOVA)
특정한 독립변인을 중점에 두고 나머지 독립변인은 공변량으로 분석하는 방법
3. 분할표 분석
분할표는 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로 두 변수가 모두 범주형일 때 빈도 분포표를 작성해 변수 간 상호관련성을 분석하는 방법이다.
사건 발생 | 사건 미발생 | 합 | |
A집단 | a | b | a+b |
B집단 | c | d | c+d |
(1)상대위험도(Relative Risk)상대위험도는 두 집단의 사건발생 확률의 비이다.
RR = A집단의 사건발생 확률/B집단의 사건발생 확률
(2)승산비/오즈비(Odds Ratio)오즈는 특정 집단에 대한 사건발생 확률과 사건이 발생하지 않을 확률의 비이다. 만약 오즈가 4라면 어떤 사건이 발생할 확률이 발생하지 않을 확률의 4배라는 의미이다.
Odds(A) = a/b
Odds(B) = c/d
Odds Ratio = ad/bc
상대위험도<1 | 오즈비<1 | A집단의 사건 발생 확률이 낮음 |
상대위험도=1 | 오즈비=1 | 두 변수는 독립 |
상대위험도>1 | 오즈비>1 | A집단의 사건 발생 확률이 높음 |
4. 카이제곱 검정
카이제곱 검정은 범주형 자료 간 차이를 분석하는 모수적 통계 방법이다.
(1)적합도 검정
하나의 범주형 변수에 대해 데이터가 특정 분포를 만족하는지 검정. 피어슨의 카이제곱 검정이라고도 부름.
H0: 분포가 기대 분포와 같다
H1: 분포가 기대 분포와 같지 않다
ex) 3개의 서로 다른 공장라인에서 발생하는 불량률은 1:2:3으로 나타난다.
(2)동질성 검정
서로 다른 집단에 대한 범주형 변수의 분포가 동질인지 검정. 두 범주형 변수가 서로 독립이 아니어도 분포는 동질이 아닐 수 있다.
H0: 두 집단의 확률 분포가 같다
H1: 두 집단의 확률 분포가 같지 않다.
ex)성별에 따라 선호하는 자동차 모델이 다르다.
(3)독립성 검정
서로 다른 집단에 대한 두 범주형 변수가 서로 연관되어 있는지 검정.
연속형 변수 > 상관분석
범주형 변수 > 독립성 검정
H0: 두 변수는 서로 독립이다.(=연관성이 없다)
H1: 두 변수는 서로 독립이 아니다.(=연관성이 있다)
ex)성별과 선호하는 자동차 모델 간에 상관관계가 있다.
5. 피셔의 정확성 검정
교차표를 활용하기 때문에 교차분석이라고도 하며 카이제곱 독립성 검정과 동일하게 두 범주형 변수 간의 연관성을 검정하는 방법이다. 범주형 데이터에서 초기하분포에 기반해 정확한 p-value를 계산하며, 가능한 모든 경우의 수를 직접 확인한다.
샘플 수가 너무 적거나 카테고리가 너무 많아서 테이블의 도수가 극도로 작아지는 경우에 주로 사용한다. 보통 기대빈도가 5보다 작은 셀이 20%를 넘으면 카이제곱 검정보다 피셔의 정확성 검정을 사용한다.
가설은 카이제곱 독립성 검정과 동일하다.
H0: 두 변수는 연관성이 없다.
H1: 두 변수는 연관성이 있다.
'파이썬 > 빅분기' 카테고리의 다른 글
시계열 데이터 개념과 시계열 분석 모형 (0) | 2021.09.28 |
---|---|
다변량 분석법 & 차원축소법 - 다차원척도법(MDS) (0) | 2021.09.26 |
피어슨 상관계수와 스피어만 상관계수 (0) | 2021.09.22 |
가설검정 - 귀무가설과 대립가설, 가설검정 오류 (0) | 2021.09.22 |
점추정과 구간추정 (0) | 2021.09.22 |