카테고리 분포는 베르누이 분포의 확장판입니다.
베르누이 분포에 대해 간략하게 말하자면 베르누이 분포는 0 또는 1이 나오는 확률변수의 분포로 대표적인 예시로 동전 던지기로 동전을 던져 나오는 결과를 묘사할 때 사용하기도 합니다.
카테고리 분포는 확률 변수가 1부터 k까지의 k 개의 정수 값 중 하나가 나오는 확률변수의 분포입니다. 예를 들어 눈금이 6개인 주사위는 확률 변수가 1부터 6의 정수 값을 가지고 이 중 하나의 확률 변수가 나올 확률을? 을 구하는 문제입니다.
카테고리 분포를 가진 확률변수는 원래 0과 1을 가지는 스칼라 값을 가지지만 특이하게 0과 1로만 이루어진 다차원 벡터로 변형되어 사용됩니다. 이러한 인코딩 방식을 원-핫-인코딩(One-Hot encoding)이라고 합니다.
경우의 수 | One-Hot-Encoding |
x=1 | x=(1,0,0,0,0,0) |
x=2 | x=(0,1,0,0,0,0) |
x=3 | x=(0,0,1,0,0,0) |
x=4 | x=(0,0,0,1,0,0) |
x=5 | x=(0,0,0,0,1,0) |
x=6 | x=(0,0,0,0,0,1) |
출력되는 확률변수 x의 값은 다음과 같은 벡터 형태가 됩니다.
(벡터는 원래 세로 열로 표현이 되지만 지금은 편의상 가로 행으로 표시하였다.)
단, 이 벡터를 구성하는 원소는 다음과 같은 제한 조건을 아래와 같이 표현 할 수 있습니다.
첫 번째 왼편에 있는 제한 조건은 확률변수 x_i는 0 또는 1만 가능하다는 것이고, 두 번째 제한 조건은 여러 확률변수 x_i 중 단 하나만 1일 수 있다는 것입니다. 확률 변수의 형태가 벡터의 형태이니 확률 변수를 따르는 모수 또한 같은 크기의 벡터 형태를 이룹니다.
이 모수 벡터도 다음과 같은 제한 조건을 가집니다.
첫 번째 제한 조건은 모수는 0과 1사이의 값만 가질 수 있습니다.
두 번째 제한 조건은 k개의 모수의 총합은 1이 되어야 합니다. 베르누이 분포가 여기서 k=2인 카테고리 분포라고 생각할 수도 있습니다. 실제로 카테고리 분포는 다음과 같이 묘사할 수 있습니다.
간단하게 예시를 들어보면,
REFERENCE
8.3 카테고리분포와 다항분포 — 데이터 사이언스 스쿨
.ipynb .pdf to have style consistency -->
datascienceschool.net
'Machine learning > Basic probability distribution' 카테고리의 다른 글
베타 분포(Beta distribution) (0) | 2022.06.29 |
---|---|
이항분포(binomial distribution) (0) | 2022.02.02 |
베르누이 분포(Bernoulli Distribution) (0) | 2022.02.01 |
확률 분포의 의미와 종류 (0) | 2022.01.31 |