Machine learning/Basic probability distribution

베르누이 분포(Bernoulli Distribution)

TM 2022. 2. 1. 13:49

베르누이 분포를 설명하기 앞서 먼저 베르누이 시행(Bernoulli Trial)에 대해 이야기를 해보려고 합니다. 베르누이 시행이라는 것은 어떠한 결과에 대해 두 가지의 결과만이 존재하는 시행을 의미합니다.

 

대표적인 예로 동전 던지기가 있는데, 동전을 던지면 앞면이 나오거나 뒷면이 나오거나 둘 중 하나일 것이고, 동전을 반복적으로 던졌을 때, 제일 첫 번째 시행에서 앞면이 나왔다고 그다음 시행에서 뒷면이 나올 확률이 더 높아지거나 하지 않는데 이를 각 시행은 서로에게 영향을 주지 않고 독립이라고 말합니다. 이런 독립 시행을 바탕으로 여러 가지 분포들이 파생되었는데 이항 분포, 기하 분포, 음이항 분포 등이 있습니다. 

 

이제 베르누이 시행을 베이스로 어떤 확률변수 X가 있을 때 결과 값은 1 또는 0... 성공 혹은 실패를 갖는다고 할 때, 이 확률변수 X를 베르누이 확률변수라고 부르고, 이 확률변수들이 모여 만들어진 분포베르누이 분포(Bernoulli Distribution)라고 합니다. 

 

수학적인 예시로 풀어보면, 어떤 확률변수 X가 시행 결과가 '성공'이면 1의 값을 갖고, '실패'이면 0의 값을 갖는다고 할 때, 이 확률변수 X를 베르누이 확률변수라고 부르며, 아래와 같이 표시할 수 있습니다.

 

 

베르누이 확률변수로 구성되어 있는 베르누이 분포는 시행의 결과가 '성공'일 확률p라고 한다면 반대인 '실패'일 확률1-p가 됩니다. 이때, 베르누이 확률 질량 함수는 다음과 같이 쓸 수 있습니다.

 

베르누이 확률질량함수

 

x=1 일때
x=0일때

 

확률 질량 함수(Probability mass function)는 이산 확률변수의 확률분포를 나타내는 함수입니다. 즉, 다시 말해서 확률변수가 가질 수 있는 값이 유한개 이거나 자연수와 같이 셀 수 있는 이산 확률 변수일 때, 불연속 한 값에 대한 확률을 표현하는 함수가 확률 질량 함수입니다. 

 

그러면 확률변수 X에 대한 평균을 구하기 위해서 확률변수 X와 그 확률변수가 해당되는 확률을 곱하고 전체 확률변수에 대해 더해줍니다. 

 

그런데 베르누이 확률변수 X는 0과 1 둘이기 때문에  아래와 같이 구할 수 

 

 

즉, 베르누이 분포의 평균은 시행 성공할 확률 p와 같습니다.

 

 

분산을 구하려면 확률변수 제곱의 평균 - 확률변수 평균의 제곱으로 구할 수 있는데

 

 

결국 분산은 성공할 확률 * 실패할 확률을 곱한 값이 만들어집니다. 마지막으로 그래프를 그려보면 x축에는 확률변수 X가 오고 y축에는 확률변수에 해당하는 확률이 옵니다. (편의상 1-p가 p보다 작을 수 있다고 그렸지만 사실 p보다 클 수도 있습니다.)

 

 

REFERENCE

 

이산확률분포와 연속확률분포의 차이

확률분포는 보통 데이터의 특성에 따라서 크게 이산확률분포와 연속확률분포로 나뉜다. 예를 들어 어느 여자고등학교에서 3학년 학생을 대상으로 각 반에 안경 쓴 학생의 수를 조사하였더니, 1

math100.tistory.com

 

[이산형 분포] 베르누이 분포(Bernoulli distribution), 이항 분포(Binomial distribution)

[이산형 분포] 베르누이 분포(Bernoulli distribution), 이항 분포(Binomial distribution) Published Apr 07, 2020 <!-- --> 이제부터 통계학에서 기본이 되는 다양한 분포들에 대해 정리하고자 합니다! 이번 포스트에

soohee410.github.io