이산확률분포란 이산확률 변수가 갖는 확률 분포를 의미한다. 이산확률변수는 확률변수 X가 1,2,3 같이 하나씩 셀 수 있는 값을 취하며 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등이 있다. 이산 확률 분포는 확률질량함수로 표현이 가능하다.
*확률질량함수
-셀 수 있는 수의 사건이 존재하는 경우 각 단순 사건에 대한 확률만 정의하는 함수
ex)주사위를 던졌을 때의 확률 분포
P(1) = 1/6
1. 베르누이 분포
베르누이 분포는 이산 확률분포의 가장 기초적인 분포이다. 베르누이 시행은 성공(1)과 실패(0) 두 결과만이 존재하는 시행으로 각 시행은 서로 독립이다. 대표적인 예가 바로 동전던지기이다. 베르누이 시행에서 어떤 확률변수 X의 시행 결과가 성공이면 1, 실패이면 0의 값을 갖는다고 할 때 이 X를 바로 베르누이 확률변수라고 하고, 이의 분포를 베르누이 분포라고 한다.
베르누이 분포의 기대값 E(X)=p, 분산 Var(X)=p(1-p) 값을 갖는다.
2. 이항분포
이항분포는 연속된 n번의 독립 시행에서 각 시행이 확률 p를 가질 때 k번 성공할 확률 분포이다. n=1일 때 이항분포는 베르누이 분포이다. 즉, 이항분포는 베르누이 시행을 n번 반복했을 때 k번 성공할 확률이라고 할 수 있다.
이항분포의 평균 E(X)=np, 분산 Var(X)=np(1-p)이다.
3. 포아송 분포
(1)포아송 분포 개념
포아송 분포는 단위 시간, 단위 공간에 어떤 사건이 몇 번 발생할 것인가를 표현하는 이산 확률 분포이다. 포아송 분포에서 모수(λ)는 '단위시간 또는 단위 공간에서 평균 발생횟수'이다. 예를 들면 한 시간 동안 상점을 방문한 고객 수, 한 시간 동안 사무실에 걸려온 전화의 수 등이다. 포아송 분포에서 확률은 모수에 따라 달라진다. 즉, 시간에 따라서 확률도 변화한다.
포아송 분포의 기대값 E(X)=λ, 분산 V(X)=λ이다.
(2)전제조건
①독립성
어떤 단위 시간 또는 단위 공간에서 발생한 결과는 중복되지 않은 다른 시간이나 공간에서 발생한 결과와 서로 독립
ex) 9시~10시 사이에 A상점에 방문한 고객의 수와 B상점에 방문한 고객의 수는 서로 독립, A상점에 9시~10시 사이에 방문한 고객 수와 11시~12시 사이에 방문한 고객 수는 서로 독립
②일정성
어떤 단위 시간 또는 단위 공간에서 발생한 확률은 그 시간/공간의 크기에 비례하고 외부의 영향을 받지 않는다. 즉, 단위 시간/공간에서 발생한 평균발생횟수는 일정하다
ex) 어떤 사건이 1분에 평균 2번 발생한다면 3분 동안에는 평균 6번 발생한다.
③비집락성
두 개 이상의 결과가 동시에 발생할 확률은 0이다.
그림에서 보는 것과 같이 λ가 충분히 큰 값으로 증가하면(=시행횟수가 크고 확률이 적은 경우) 포아송 분포는 정규분포와 유사한 형태를 띄게 된다.
'파이썬 > 빅분기' 카테고리의 다른 글
가설검정 - 귀무가설과 대립가설, 가설검정 오류 (0) | 2021.09.22 |
---|---|
점추정과 구간추정 (0) | 2021.09.22 |
연속확률분포(1) - 정규분포, 감마분포, 지수분포, 베타분포 (0) | 2021.09.21 |
공분산(covariance)과 상관계수 (0) | 2021.09.20 |
변수 선택 방법(Feature selection) - 필터 기법, 래퍼 기법, 임베디드 기법 (0) | 2021.09.19 |