카테고리 분포(Categorical distribution)

Machine learning/Basic probability distribution

카테고리 분포(Categorical distribution)

TM 2022. 6. 29. 14:59

카테고리 분포는 베르누이 분포의 확장판입니다.

베르누이 분포에 대해 간략하게 말하자면 베르누이 분포는 0 또는 1이 나오는 확률변수의 분포로 대표적인 예시로 동전 던지기로 동전을 던져 나오는 결과를 묘사할 때 사용하기도 합니다.

카테고리 분포는 확률 변수가 1부터 k까지의 k 개의 정수 값 중 하나가 나오는 확률변수의 분포입니다. 예를 들어 눈금이 6개인 주사위는 확률 변수가 1부터 6의 정수 값을 가지고 이 중 하나의 확률 변수가 나올 확률을? 을 구하는 문제입니다.

카테고리 분포를 가진 확률변수는 원래 0과 1을 가지는 스칼라 값을 가지지만 특이하게 0과 1로만 이루어진 다차원 벡터로 변형되어 사용됩니다. 이러한 인코딩 방식을 원-핫-인코딩(One-Hot encoding)이라고 합니다.

경우의 수	One-Hot-Encoding
x=1	x=(1,0,0,0,0,0)
x=2	x=(0,1,0,0,0,0)
x=3	x=(0,0,1,0,0,0)
x=4	x=(0,0,0,1,0,0)
x=5	x=(0,0,0,0,1,0)
x=6	x=(0,0,0,0,0,1)

출력되는 확률변수 x의 값은 다음과 같은 벡터 형태가 됩니다.

(벡터는 원래 세로 열로 표현이 되지만 지금은 편의상 가로 행으로 표시하였다.)

단, 이 벡터를 구성하는 원소는 다음과 같은 제한 조건을 아래와 같이 표현 할 수 있습니다.

첫 번째 왼편에 있는 제한 조건은 확률변수 x_i는 0 또는 1만 가능하다는 것이고, 두 번째 제한 조건은 여러 확률변수 x_i 중 단 하나만 1일 수 있다는 것입니다. 확률 변수의 형태가 벡터의 형태이니 확률 변수를 따르는 모수 또한 같은 크기의 벡터 형태를 이룹니다.

이 모수 벡터도 다음과 같은 제한 조건을 가집니다.

첫 번째 제한 조건은 모수는 0과 1사이의 값만 가질 수 있습니다.

두 번째 제한 조건은 k개의 모수의 총합은 1이 되어야 합니다. 베르누이 분포가 여기서 k=2인 카테고리 분포라고 생각할 수도 있습니다. 실제로 카테고리 분포는 다음과 같이 묘사할 수 있습니다.

간단하게 예시를 들어보면,

REFERENCE

8.3 카테고리분포와 다항분포 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

'Machine learning > Basic probability distribution' 카테고리의 다른 글

베타 분포(Beta distribution) (0)	2022.06.29
이항분포(binomial distribution) (0)	2022.02.02
베르누이 분포(Bernoulli Distribution) (0)	2022.02.01
확률 분포의 의미와 종류 (0)	2022.01.31

현재글카테고리 분포(Categorical distribution)

개인적으로 공부하면서 차근차근 저장해가는 공간입니다

피타코라스, Bayes, life long, experience navigation, Machine Learning, conjugate prior, 이산확률분포, orthogonal, Orthogonal vector, 이항분포 평균 분산, 정규직교, cost function, 고유값분해, eignevalue, Support Vector Machine, orthogonalmatrix, eigendecomposition, Bernoulli Distribution, categorical distribution, ML,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Yeon blog