이항 분포의 설명은 베르누이의 시행에서 시작합니다. 베르누이의 시행은 시행의 결과가 오직 두 개뿐인 시행을 의미합니다.
성공 혹은 실패, 이런 베르누이 시행을 여러번 진행한 것이 이항 분포입니다. 물론 각각의 시행들은 모두 독립입니다.
이 베르누이 시행을 n번 반복 했을때 그때의 각각의 시행들에서 성공 혹은 실패가 나올 수도 있습니다. 또한, 특정 사건이 발생했을 수 있고 발생하지 않을 수 있습니다.
이럴 때, 이 사건들이 발생한 횟수를 확률변수 X로 만든 게 이항 분포입니다. 조금 더 이해하기 쉽게 예시로 한번 들어보겠습니다.
로봇이 자율주행을 할때 정확하게 지정한 위치에 도착할 확률이 90%입니다. 이때 자율주행을 10번 주행 반복을 했을 때 확률변수 X 만큼 성공할 확률을 구하면?
도착 성공률은 90%이므로 성공할 확률은 0.9 실패할 확률은 0.1로 만들 수 있습니다. 이때 확률변수 X가 0일 때 즉, 10번 주행 반복 중 도착 성공가 0번이니 아래와 같이 계산할 수 있고,
확률변수 X가 1일때는 10번 주행 반복 중 도착 성공이 1번이지만 10번의 시도 중에서 나오기 때문에 10가지의 경우의 수를 곱해주고
확률변수 X가 2일때는 10번의 주행 반복 중 도착 성공이 2번이고 10가지의 시도 중 여러 가지 조합이 있을 수 있기 때문에 아래와 같은 식이 만들어집니다.
결국 이 식들을 하나의 함수로 만들어보면
아래와 같이 이항분포의 함수 식으로 만들 수 있습니다.
고등학교까지는 combination을 위 표기하지만 다른 이항 계수의 기호로 표현할 수도 있습니다.
시행 횟수 n이고 사건 발생 확률이 p인 이항 분포는 아래와 같은 기호로도 쓸 수 있습니다. (확률변수 X가 이항분포에 따른다. 시행 횟수는 n이고 사건 발생 확률은 p이다.)
그렇다면 이제 이항분포의 평균을 계산해보면 아래와 같이 전개할 수 있습니다.
combination식도 풀어서 정리하면 아래의 식을 얻을 수 있습니다.
사실 x=0일때는 값이 결국 0이니 x=1로 만들어줘도 무관합니다.
그리고 이 식을 아래와 같이 변형하면
x는 서로 사라지고 n과 p는 밖으로 내보내면 아래의 식이 만들어지고,
이제 식을 간소화하기 위해서 치환을 해볼 건데
기존 치환식들을 서로 빼서 다시 정리를 해보면
이때 아래 치환식으로 전개를 해줬는데 시그마에 있는 x를 대입을 해보면
x가 1일 때 r은 0이고 x가 n일 때는 n-1은 m이므로 아래와 같이 바꿔 줄 수 있습니다.
이제 다시 조합식으로 바꿔주면
시행 횟수 m이고, 사건 발생 확률이 p인 이항 분포를 r값에 의해 이항 분포에서 더해준 값인데 전체 확률의 값은 1이므로 이런 결과를 도출할 수 있습니다.
즉, 확률변수가 시행 횟수가 n이고 사건 발생 확률이 p인 이항 분포를 따른다면 그 이항 분포의 평균은 np라는 결과입니다. 이제 분산을 계산해보면
이처럼 평균과 분산을 구하고 실제로 이항분포 그래프를 그렸을 때 그래프의 가장 볼록해진 부분이 확률 p가 작아질수록 왼쪽으로 근사해지고 p가 커질수록 오른쪽으로 근사해진다는 것을 볼 수 있었습니다. n이 일정할 때 확률이 그래프에 미치는 영향을 볼 수 있었고, n의 수가 커질수록 이항 분포가 정규분포에 근사해진다는 것을 볼 수 있었습니다.
하지만, 정규분포로 근사할 수 있는 경우는 p가 너무 크거나 너무 작지 않은 곳에서 가능하다고 합니다. 만약 p가 너무 크거나 너무 작을 경우에는 스큐니스(비대칭도)가 크다고 합니다. 대신에 n이 충분히 크고 p가 0에 가까우면 푸아송 분포에 가깝다고 합니다.
REFERENCE
'Machine learning > Basic probability distribution' 카테고리의 다른 글
카테고리 분포(Categorical distribution) (0) | 2022.06.29 |
---|---|
베타 분포(Beta distribution) (0) | 2022.06.29 |
베르누이 분포(Bernoulli Distribution) (0) | 2022.02.01 |
확률 분포의 의미와 종류 (0) | 2022.01.31 |