추론 통계란 모집단에서 추출된 표본으로부터 통계량(평균, 분산, 표준편차 등)을 구하고 이것을 이용해 모집단의 특성을 알아내는 것이다.
모집단의 일부로부터 모집단을 추론하는 것이기 때문에 100% 정확하다고 할 수는 없다. 그렇기에 통계적인 추론을 할 때는 반드시 결론의 부정확한 정도를 표시해줘야 한다.
모집단: 조사하고자 하는 대상 집단 전체
모수: 표본 관측에 의해 구하고자 하는 모집단 정보
표본: 모집단에서 추출한 일부 대상
통계량: 표본에서 얻은 평균, 표준편차 등
추정량: 모수 추정을 위해 구해진 통계량
모수 추정 방법에는 점추정과 구간추정 두 가지 방법이 있다.
1. 점추정
점추정은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 표본의 평균, 중위수, 최빈값 등을 사용한다. 예를 들어 성인 남성의 평균키를 구하기 위해 100명의 표본을 뽑아 평균키를 구했더니 175.6cm가 나왔다고 하자. 이를 기반으로 성인 남성의 평균 키는 175.6cm라고 하는 것이 바로 점추정이다.
불편성(=비편향성) | 표본으로부터 구한 통계량의 기대치가 추정하려는 모수의 실제 값에 같거나 가까워지는 성질 |
효율성 | 추정량의 분산이 작을수록 추정 정확도는 높아진다 |
일치성 | 표본의 크기가 아주 커지면 표본과 모집단의 모수가 거의 같아진다 |
충족성 | 추정량은 모수에 대해 모든 정보를 제공한다 |
점추정에 사용되는 통계량에는 표본평균, 표본분산, 중위수, 최빈값 등이 있다.
2. 구간추정
점추정 방식에는 문제가 많다. 위의 성인남성 평균키를 구하는 예시에서 표본으로 뽑은 대상의 키가 골고루 섞여 있지 않고 너무 큰 사람들만 있거나, 너무 작은 사람들만 있다면 모집단을 대표한다고 보기 어렵다.
이를 극복하기 위한 것이 바로 구간추정이다. 구간추정은 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법이다. 항상 추정량의 분포에 대한 전제가 주어져야 하고 구해진 구간 안에 모수가 있을 가능성의 크기인 신뢰수준이 주어져야 한다.
구간추정에 사용되는 통계량은 신뢰수준과 신뢰구간이 있다.
신뢰수준 | 추정값이 존재하는 구간에 모수가 포함될 확률 ex)100% x (1-α), α는 허용 오차 수준 ex)신뢰수준 95%이면 α는 0.05, 추정한 구간 내에 모수가 존재하지 않을 확률이 5% |
신뢰구간 | 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위 표본평균 ± (z x SE) |
신뢰수준이 95%라는 의미는 100개의 표본을 뽑아 각각 모평균에 대한 신뢰구간을 제시했을을 때, 95개의 표본이 신뢰구간에 들어간다는 의미이다. 신뢰수준은 보통 90%, 95%, 99%를 사용한다.
모집단이 정규분포를 따르고 표준편차가 알려져있는 경우 신뢰구간은 다음과 같다.
일단 모평균 μ의 신뢰구간을 구하려면 μ의 추정량 x̅의 분포가 필요하다.
σ가 작을수록 신뢰구간의 길이는 짧아지고, α가 커질수록 신뢰구간의 길이는 길어지고 신뢰수준은 떨어진다. 또 신뢰구간의 길이는 표본의 크기에 반비례하므로 표본 크기가 커지면 신뢰구간의 길이는 짧아진다. 각 신뢰수준의 신뢰구간 z값은 암기하는 것이 문제를 풀 때 편하다.
ex)평균이 μ, 표준편차가 8인 정규분포를 따르는 모집단에서 크기가 25인 표본을 추출하여 평균을 계산했더니 표본평균이 42.7이었다. 이때 μ에 대한 95% 신뢰구간을 구하라.
=>95% 신뢰구간이므로 z=1.96
다만 현실적으로 모분산을 아는 것은 어렵기 때문에 대부분의 경우 표본분산을 이용한다. 이 때 사용되는 것이 바로 t-분포이다.
'파이썬 > 빅분기' 카테고리의 다른 글
피어슨 상관계수와 스피어만 상관계수 (0) | 2021.09.22 |
---|---|
가설검정 - 귀무가설과 대립가설, 가설검정 오류 (0) | 2021.09.22 |
연속확률분포(1) - 정규분포, 감마분포, 지수분포, 베타분포 (0) | 2021.09.21 |
이산확률분포 - 이항분포와 포아송 분포 (0) | 2021.09.21 |
공분산(covariance)과 상관계수 (0) | 2021.09.20 |