Machine learning/Basic probability distribution

이항분포(binomial distribution)

TM 2022. 2. 2. 15:57

이항 분포의 설명은 베르누이의 시행에서 시작합니다. 베르누이의 시행은 시행의 결과가 오직 두 개뿐인 시행을 의미합니다.

성공 혹은 실패, 이런 베르누이 시행을 여러번 진행한 것이 이항 분포입니다. 물론 각각의 시행들은 모두 독립입니다. 

 

 

이 베르누이 시행을 n번 반복 했을때 그때의 각각의 시행들에서 성공 혹은 실패가 나올 수도 있습니다. 또한, 특정 사건이 발생했을 수 있고 발생하지 않을 수 있습니다.  

 

 

이럴 때, 이 사건들이 발생한 횟수를 확률변수 X로 만든 게 이항 분포입니다. 조금 더 이해하기 쉽게 예시로 한번 들어보겠습니다. 

로봇이 자율주행을 할때 정확하게 지정한 위치에 도착할 확률이 90%입니다. 이때 자율주행을 10번 주행 반복을 했을 때 확률변수 X 만큼 성공할 확률을 구하면? 

 

 

도착 성공률은 90%이므로 성공할 확률은 0.9 실패할 확률은 0.1로 만들 수 있습니다. 이때 확률변수 X가 0일 때  즉, 10번 주행 반복 중 도착 성공가 0번이니 아래와 같이 계산할 수 있고, 

 

 

확률변수 X가 1일때는 10번 주행 반복 중 도착 성공이 1번이지만 10번의 시도 중에서 나오기 때문에 10가지의 경우의 수를 곱해주고

 

 

확률변수 X가 2일때는 10번의 주행 반복 중 도착 성공이 2번이고 10가지의 시도 중 여러 가지 조합이 있을 수 있기 때문에 아래와 같은 식이 만들어집니다.

 

 

결국 이 식들을 하나의 함수로 만들어보면 

 

 

아래와 같이 이항분포의 함수 식으로 만들 수 있습니다. 

 

 

n=시행횟수, x=확률변수

 

고등학교까지는 combination을 위 표기하지만 다른 이항 계수의 기호로 표현할 수도 있습니다.

 

 

시행 횟수 n이고 사건 발생 확률이 p인 이항 분포는 아래와 같은 기호로도 쓸 수 있습니다. (확률변수 X가 이항분포에 따른다. 시행 횟수는 n이고 사건 발생 확률은 p이다.)

 

 

그렇다면 이제 이항분포의 평균을 계산해보면 아래와 같이 전개할 수 있습니다.

 

 

combination식도 풀어서 정리하면 아래의 식을 얻을 수 있습니다. 

 

 

사실 x=0일때는 값이 결국 0이니 x=1로 만들어줘도 무관합니다.

 

 

그리고 이 식을 아래와 같이 변형하면  

 

 

x는 서로 사라지고 n과 p는 밖으로 내보내면 아래의 식이 만들어지고,

 

 

이제 식을 간소화하기 위해서 치환을 해볼 건데

m, r로 치환

 

기존 식에 치환 대입

기존 치환식들을 서로 빼서 다시 정리를 해보면

치환끼리 빼기

 

 

이때 아래 치환식으로 전개를 해줬는데 시그마에 있는 x를 대입을 해보면

 

 

x가 1일 때 r은 0이고 x가 n일 때는 n-1은 m이므로 아래와 같이 바꿔 줄 수 있습니다.

 

 

이제 다시 조합식으로 바꿔주면

 

시행 횟수 m이고, 사건 발생 확률이 p인 이항 분포를 r값에 의해 이항 분포에서 더해준 값인데 전체 확률의 값은 1이므로 이런 결과를 도출할 수 있습니다.

 

 

즉, 확률변수가 시행 횟수가 n이고 사건 발생 확률이 p인 이항 분포를 따른다면 그 이항 분포의 평균은 np라는 결과입니다. 이제 분산을 계산해보면 

이처럼 평균과 분산을 구하고 실제로 이항분포 그래프를 그렸을 때 그래프의 가장 볼록해진 부분이 확률 p가 작아질수록 왼쪽으로 근사해지고 p가 커질수록 오른쪽으로 근사해진다는 것을 볼 수 있었습니다. n이 일정할 때 확률이 그래프에 미치는 영향을 볼 수 있었고, n의 수가 커질수록 이항 분포가 정규분포에 근사해진다는 것을 볼 수 있었습니다. 

 

이항분포 그래프

 

하지만, 정규분포로 근사할 수 있는 경우는 p가 너무 크거나 너무 작지 않은 곳에서 가능하다고 합니다. 만약 p가 너무 크거나 너무 작을 경우에는 스큐니스(비대칭도)가 크다고 합니다. 대신에 n이 충분히 크고 p가 0에 가까우면 푸아송 분포에 가깝다고 합니다.

 

비대칭도

 

 

 

REFERENCE

 

이항 분포 - 위키백과, 우리 모두의 백과사전

이항 분포(二項分布)는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다. 이러한 시행은 베르누이 시행이라고 불리기도 한다. 사실, n=1일 때 이항 분포는 베르누

ko.wikipedia.org

 

 

비대칭도 - 위키백과, 우리 모두의 백과사전

비대칭도 실험 자료의 예 확률 이론 및 통계학에서, 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될

ko.wikipedia.org

 

 

이항분포의 확률 구하는 법

이항분포는 이산확률분포에서 가장 많이 사용하는 분포로, 이전 글에서 알아보았던 베르누이분포의 업그레이드 버전이다. 먼저 베르누이분포가 “성공”과 “실패” 이렇게 2가지의 상황만 나

math100.tistory.com

 

[확률과 통계] 30. 이산확률분포(2) - 이항 분포, Binomial Distribution

이번에 소개할 이산 확률분포는 '이항 분포' 입니다. 이것은 이미 고등학교때 배우셨습니다. 바로 '독립시...

blog.naver.com