본문 바로가기

파이썬/빅분기

연속확률분포(1) - 정규분포, 감마분포, 지수분포, 베타분포

확률변수 X가 실수와 같이 연속적인 값을 취할 때 이를 연속확률변수라고 하고, 이러한 X가 가지는 확률 분포를 연속확률분포라고 한다. 연속확률분포에는 대표적으로 정규분포, t-분포, F-분포, 카이제곱분포 등이 있다.

 

 

1. 정규분포

통계학에서 가장 중요하게 다루는 확률 분포인 정규분포. 다른 말로는 가우스분포라고 부르기도 한다. 정규분포는 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 많이 사용한다.

 

 

정규분포는 평균 μ와 분산 σ2 두 모수만으로 정의된다. 정규분포 중에서도 Z = X-μ/σ를 통해 정규화함으로써 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 한다. 다른 말로 z-분포라고도 한다.

 

 

정규분포는 평균 μ에서 최댓값을 갖고, 평균 μ를 기준으로 좌우대칭이다. 따라서 정규분포의 기댓값, 최빈값, 중앙값은 모두 μ이다.

 

 

 

2. 감마분포

감마분포는 정규분포로 해결할 수 없는 부분을 보완하기 나온 확률 분포 중 하나이다. 감마분포를 알려면 우선 감마함수를 알아야 한다. 감마함수는 팩토리얼을 자연수에 한정하지 않고 복소수까지 일반화 시킨 함수이다.

 

감마분포는 평균 소요시간이 β인 사건이 α번째 일어날 때까지 걸리는 시간에 대한 연속 확률분포이다. 감마분포는 지수분포를 여러 개의 사건으로 확장한 것이라고 할 수 있다. α는 형태모수, β는 척도모수로 포아송분포의 모수 람다와 비슷한 역할을 한다.

 

 

 

β가 고정된 상태에서 α가 증가하면 평균과 분산이 커지면서 분포는 점점 오른쪽으로 퍼진다. 즉, 사건개수 α가 많을수록 대기시간은 길어진다.

 

 

 

3. 지수분포

지수분포는 특정 사건이 일어나고 다음에 같은 사건이 일어날 때까지 걸리는 시간에 대한 분포이다. 예를 들어 평균적으로 10분에 한번씩 도착하는 버스가 있을 때, 버스를 놓친 후 그 다음 버스가 올 때까지 걸리는 시간은 지수 분포르 따른다고 할 수 있다.

 

 

여기서 다음 사건이 발생할 때까지 걸리는 시간을 알려면 사건의 발생 횟수에 대해 알아야 한다. 즉, 어떤 사건의 발생 횟수가 포아송 분포를 따르면 사건 사이의 대기 시간은 지수 분포를 따르게 된다.

 

 

어떤 사건 A의 발생 횟수가 발생률이 λ인 포아송 분포를 따를 때, A가 일어나고 그 다음에 또 일어날 때까지 걸리는 시간을 W라고 한다면 W는 음이 아닌 값을 갖는 연속형 확률변수가 된다.

 

 

지수분포는 α=1, β=1/λ인 감마분포이다. E(X)=β, Var(X)=β2이다.

 

 

4. 베타분포

베타분포는 확률에 대한 확률분포이다. 감마분포, 지수분포는 대기 시간에 대한 분포이기 때문에 도메인 x의 범위가 0보다 컸지만, 베타분포는 확률에 대한 분포이기 때문에 x가 0에서 1 사이 값이다.

 

ex)

온라인 쇼핑몰을 방문한 고객이 실제 제품을 구매할 확률이 0.5보다 클 확률은?

 

 

베타 분포는 베이지안 통계학에서 중요하게 다뤄지는 분포이다. 실제로 베이지안 방법에서 이항분포의 켤레 사전 분포로 활용된다. 이항분포의 경우 확률 p가 고정이고 성공 및 실패 횟수가 확률변수인 반면, 베타분포에서는 성공횟수(α-1)과 실패횟수(β-1)은 고정이고 확률 p가 확률변수이다.

 

 

α, β값이 서로 비슷할수록 정규분포에 근사해지며, 분산이 커진다.