가설이란 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론이다. 검정은 세운 가설이 통계적으로 유의한지 알아보는 것이다.
가설에는 귀무가설과 대립가설 두 가지가 있다.
귀무가설(H0) | 현재까지 주장되어온 것 혹은 기존과 비교하여 변화가 없음을 나타내는 가설 |
대립가설(H1) | 표본을 통해 확실한 근거를 갖고 입증하고자 하는 가설, 연구가설이라고도 함 |
귀무가설
-직접 검정 대상이 되는 가설
-일단 옳다는 가정 하에 시작
-기각이 목표
대립가설
-귀무가설에 대립되는 가설
-귀무가설이 기각되면 채택되는 가설
-새로운 주장 또는 입증하고픈 가설
-채택이 목표
표본을 이용해 귀무가설을 통계적으로 확인해보고 귀무가설이 기각되면 대립가설이 채택된다. 다만, 주의할 점은 귀무가설이 기각되었다고 해서 곧바로 대립가설을 채택하는 것은 위험하다. 실험설계나 변인이 잘못되어서 귀무가설이 기각되었을 수도 있기 때문이다.
즉, 귀무가설을 기각한다는 것은 귀무가설을 지지할만한 충분한 근거가 없다는 것을 의미하는 것이지 무조건적으로 대립가설이 옳다는 것은 아니다.
귀무가설이 기각될지, 채택될지에 대한 기준이 필요한데, 그 기준이 바로 '임계값'이다. 임계값은 유의수준으로부터 알 수 있다. 유의수준은 귀무가설이 실제 옳음에도 기각할 오류로 일반적으로 유의수준은 주어진 값을 이용한다.
p-value(p-값)은 검정통계량에 관한 확률로, 귀무가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치보다 크거나 같은 값을 얻을 수 있는 확률이다. p값이 작을수록 귀무가설을 기각할 확률이 높아진다. 보통 5% 기준을 많이 사용하기 때문에 p값이 5%보다 작으면 유의한 차이가 있다고 이야기한다.
p값이 주어진 경우 p값<α를 만족하면 귀무가설을 기각할 수 있다고 한다. 다만 주의할 점은 p값이 작다고 해서 무조건 귀무가설을 기각할 수 있는 것은 아니다. p값 또한 확률값이기 때문에 절대적인 판단 기준이 아니며 p값을 기준으로 귀무가설을 기각하면 제1종 오류를 범할 수 있다.
ex)어떤 회사의 계약직의 작년 평균월급이 150만원, 표준편차는 12만원이었다. 올해는 그보다 높을 것으로 예상해 계약직 사원 100명을 뽑아 평균 월급을 조사했더니 153만원이었다. 이 때 계약직 평균 월급이 150만원 이상이라고 할 수 있는지를 유의수준 α=0.05 수준에서 결정하시오.
이때 귀무가설은 평균월급=150만원 / 대립가설은 평균월급>150만원이 된다.
귀무가설이 기각되는 경우는 표본평균 153만원이 기각영역에 포함되는 경우, 즉 임계값보다 큰 경우이다. 만약 153만원이 임계값보다 크다면 귀무가설은 기각되고 대립가설이 채택된다.
가설을 세우고 검정하려면 앞서 말한대로 기각영역을 설정해야 한다. 통계적 검정에서는 대립가설을 기준으로 유의수준을 결정한다. 가설 검정 방법에는 양측검정과 단측검정이 있다.
1. 단측검정
대립가설이 어느 특정 모수 이상 혹은 이하일 때 검정하는 것
귀무가설(H0): μ≥μ0
대립가설(H1): μ<μ0
2. 양측검정
대립가설이 어느 특정 모수보다 반드시 크거나 작을 때 검정하는 것귀무가설(H0): μ=μ0대립가설(H1): μ≠μ0
μ≠μ0라는 것은 μ>μ0 또는 μ<μ0의 의미이므로 크거나 작은 경우를 모두 고려해야 한다.
가설 검정은 모집단 전체를 통해 검증하는 것이 아닌, 모집단에서 추출된 표본을 기반으로 모집단을 추론하는 것이기 때문에 통계적 오류가 발생할 가능성이 항상 존재한다.
제 1종 오류 | 귀무가설이 참임에도 기각하는 오류 *신뢰수준(1-α): 귀무가설이 참일 때 이를 참이라고 판단하는 확률 |
제 2종 오류 | 귀무가설이 거짓임에도 채택하는 오류 *검정력(1-β): 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 |
제1종 오류가 발생할 확률을 유의수준이라고 한다. 유의수준(α)는 귀무가설이 옳지만 틀렷다고 판단할 확률로, 제1종 오류를 범할 최대 허용확률을 의미한다.
제2종 오류가 발생활 확률은 베타수준(β)이라고 하며 β는 제2종 오류를 범할 최대 허용확률을 의미한다.
α와 β 모두 작을수록 검정의 신뢰도가 높아지기 때문에 작을수록 좋다. 하지만 α와 β는 서로 상반된 크기를 갖기 때문에 주어진 표본에서 α와 β를 동시에 줄이는 것은 불가능하다. 단, 표본의 크기를 증가시킨다면 분산이 작아지기 때문에 오류가 발생할 확률이 줄어든다.
'파이썬 > 빅분기' 카테고리의 다른 글
범주형 자료 분석 - t검정, 카이제곱검정, 분산분석 (0) | 2021.09.23 |
---|---|
피어슨 상관계수와 스피어만 상관계수 (0) | 2021.09.22 |
점추정과 구간추정 (0) | 2021.09.22 |
연속확률분포(1) - 정규분포, 감마분포, 지수분포, 베타분포 (0) | 2021.09.21 |
이산확률분포 - 이항분포와 포아송 분포 (0) | 2021.09.21 |