Probability mass function(PMF; 확률 질량 함수)의 정의와 예시 / Random Process #3

확률 질량 함수(probability mass function; PMF)과 확률 밀도 함수(probability density function; PDF)는 고등학교에서도 배우지만 확률 변수(random variable)의 엄밀한 정의와 함께 확률 질량 함수를 알아봅시다.

확률 변수는 값의 가능성에 따라서 이산 확률 변수연속 확률 변수로 나뉩니다. 이산 확률 변수는 확률 변수의 정의역인 샘플 공간(sample space)의 샘플들은 각각 확률을 가지고 있습니다. 샘플들의 집합인 사건(event)의 확률을 다음과 같이 표현합니다.

P(X\in B)=P(X^{-1}(B))

실수 집합 B 에 대해서 확률 변수 X 의 inverse image를 구하면 샘플들의 집합 즉, 사건이 되고 사건의 확률로써 P(X\in B) 를 구할 수 있습니다.

하지만 매번 샘플로써 확률을 구하는 것은 까다롭고 어렵습니다. 샘플들은 수로 정의된다는 보장도 없기 때문입니다. “확률 변수”를 정의한 이유가 바로 샘플에 접근하지 않고도 바로 확률을 구하기 위함입니다. 확률 변수를 통해 바로 확률을 구할 수 있도록 해주는 확률 질량 함수(probability mass function; PMF)에 대해서 알아봅시다.

Probability mass function 정의

확률 질량 함수는 “이산 확률 변수”에 대해서 정의되는 함수입니다. 이산 확률 변수의 각 실수 값마다 확률이 얼마인지 정의해 놓은 함수입니다. 이산 확률 변수는 실수 x_{i} 에 대한 확률을 P(X=x_{i}) 로 정의할 수 있습니다. 이 때 확률 질량 함수는 다음과 같이 정의할 수 있습니다.

p_{X}(x_{i}):=P(X=x_{i}),~p_{X}(x_{i}):\mathbb{R}\rightarrow\mathbb{R}

확률 질량 함수를 통해 각 샘플이 아닌 실수 별로 확률이 정의됩니다. 즉, 확률 질량 함수는 실수에서 실수로 가는 함수 입니다. 따라서 함수를 그리고 확률을 구하는 것이 훨씬 용이해집니다. 만약 실수 집합에 대한 확률을 구하고 싶다면 어떻게 될까요? 이산 확률 변수를 통한 확률 정의를 참고하여 봅시다.

P(X\in B)=\sum_{i:x_{i}\in B}P(X=x_{i})

위의 식에 확률 질량 함수의 정의를 적용하면 아래와 같이 정리할 수 있습니다.

P(X\in B)=\sum_{i:x_{i}\in B}p_{X}(x_i)

함수 값의 합을 통해서 확률을 구할 수 있게 된 것입니다.

Probability mass function의 특징

확률 질량 함수의 첫 번째 특징은 함수 값이 0보다 크거나 같고 1보다 작거나 같다는 것입니다. 확률 질량 함수의 함수 값은 확률을 의미합니다. 확률은 0보다 크거나 같고 1보다 작거나 같기 때문에 확률 질량 함수도 같은 성격을 가집니다.

0\leq p_{X}(x)\leq 1

확률 밀도 함수의 두 번째 특징은 함수 값 전체의 합이 1이 된다는 사실입니다. 확률의 총합은 1을 넘을 수 없기 때문에 아래와 같은 특징을 가진다고 할 수 있습니다.

\sum_{x}p_{X}(x)=1

Probability mass function 예시

유명한 예시들을 알아보기 전에 간단한 예시를 통해서 감을 잡아봅시다. 이전의 보았던 동전 던지기 예시를 참고하여 봅시다. 확률 변수를 앞면이 나온 개수라고 정의하면 아래와 같이 확률 변수가 정의 됩니다.

coin toss random variable

샘플 공간 \Omega 의 각 샘플은 모두 1/8 라는 확률을 가집니다. 0에는 1개 샘플, 1에는 3개, 2에는 3개, 3개에는 1개가 매칭됩니다. 따라서 확률 변수의 값이 0 또는 3일 확률은 1/8 이고, 1 또는 2일 확률은 3/8 이 됩니다. 확률 밀도 함수로 나타내면 다음과 같이 정리됩니다.

probability mass function

확률 질량 함수의 정의역이 꼭 정수일 필요는 없지만 대부분의 경우 마주할 확률 질량 함수는 정수를 정의역을 가질 것입니다. 지금부터 소개할 유명한 확률 질량 함수는 모두 정수를 정의역으로 가집니다. 앞으로 ‘확률 질량 함수’를 ‘분포’로 대체하여 사용하겠습니다.

베르누이 분포의 확률 질량 함수(Bernoulli PMF)

베르누이 분포(Bernoulli PMF)는 0과 1일 때만 값을 가지는 분포입니다. 1일 때의 확률을 p 라고 했을 때 0일 때의 확률이 1-p 이 되며, Ber(p) 라고 표기합니다. 따라서 정의역의 원소를 k라고 표현하겠습니다.

p_{X}(k)=\begin{cases}1-p,~k=0 \\ p,~k=1 \\ 0,~\text{otherwise}\end{cases}

보통, 1일 때를 성공, 0일 때를 실패로 생각하고 베르누이 분포를 정의하는 경우가 많습니다.

균등 분포의 확률 질량 함수(Uniform PMF)

균등 분포(Uniform PMF)는 0이 아닌 값이 있는 실수가 연속적이며 유한하고, 그 값들이 모두 동일한 분포입니다. l 부터 m 까지 k 는 동일한 함수 값을 가지고, 나머지 k 에 대해서 0을 함수 값으로 가집니다.

p_{X}(x)=\begin{cases} \frac{1}{m-l+1},~k=l,\cdots ,m \\ 0,~\text{otherwise} \end{cases}

모든 k 에 대한 함수 값의 합이 1이 되어야 하기 때문에 0이 아닌 함수 값을 가지는 k 에 대해서 함수 값이 1/m-l+1이 됩니다. 이런 함수를 간단하게 \text{unif}(l,m) 라고 표현합니다.

예를 들어, 주사위 던지기 같은 경우는 아래와 같은 균등 분표를 가집니다.

각 눈이 나올 확률이 모두 동등하게 1/6입니다.

기하 분포의 확률 질량 함수(Geometric PMF)

기하 분포(Geometric PMF)는 지수함수 꼴의 분포이며 아래와 같이 정의됩니다.

p_{X}(x)=\begin{cases} (1-p)p^{k},~k=0,1,2,\cdots \\ 0,~\text{otherwise} \end{cases}

기하 분포는 위에서 본 베르누이 분포와 관련이 있습니다. 베르누이 분포의 0이 아닌 함수 값이 있는 k 의 함수 값들을 ‘성공’ 혹은 ‘실패’로 정의할 수 있습니다. 실패할 확률이 p 이고, 성공할 확률이 1-p라고 합시다. 그러면 기하 분포의 함수 값은 k 번의 실패 후 성공할 확률을 의미합니다. 이런 함수를 간단하게 \text{geo}(p) 라고 표현합니다. p=0.8 인 기하 분포를 그리면 아래와 같습니다.

이항 분포의 확률 질량 함수(Binomial PMF)

이항 분포(Binomial PMF)도 기하 분포와 같이 베르누이 분포와 관련이 있습니다. 베르누이 분포를 따르는 시행(Bernoulli trials)을 n 번 할 때 k 번 성공할 확률이 이항 분포를 따릅니다. 베르누이 분포의 성공할 확률이 p 일 때 아래의 정의를 따릅니다.

p_{X}(k)=\begin{cases} {}_{n}C_{k}\cdot p^{k}(1-p)^{n-k},~k=0,1,\cdots n \\ 0,~\text{otherwise} \end{cases}

식이 위와 같이 전개되어 ‘조합’항이 붙는 이유는 이항 정리(binomial theorem)과 관련이 있습니다.

(p+q)^n=\sum_{k=0}^{n} {}_{n}C_{k}\cdot p^{k}q^{n-k}

예를 들어, 5개의 동전을 던지는데 2개의 동전이 앞(head; H)이 나오고 나머지 3개의 동전은 뒤(Tail; T)가 나오는 경우의 수는 아래와 같습니다.

\text{TTTHH, TTHTH, TTHHT, THTTH, THTHT} \\ \text{THHTT, HTTTH, HTTHT, HTHTT, HHTTT}

위에 나열된 10가지의 경우는 5개의 동전 중 앞면이 나올 동전을 2개 고르는 것과 같습니다. 따라서 {}_{5}C_{2} 개의 경우의 수가 생깁니다. 그리고 각 경우가 가지는 확률이 (1/2)^{2}\cdot (1/2)^{3}이므로 5개의 동전을 던졌을 때, 앞면이 2개 나올 확률은 {}_{5}C_{2}\cdot (1/2)^{2}\cdot(1/2)^{3}=5/16 입니다.

이항 분포는 n p 가 결정되면 정의될 수 있으며 간단하게 \text{bin}(n,p) 라고 표현합니다. 함수는 n p 에 따라 아래와 같이 그려집니다.

음이항 분포의 확률 질량 함수(Negative binomial PMF; Pascal PMF)

이항 분포는 시행 횟수가 상수이고 성공 횟수가 변수인 반면, 음이항 분포는 성공 횟수가 고정이고 시행 횟수가 변수인 분포입니다. m 번의 성공을 하기 위해서 k 번의 시도를 하였다고 가정합시다. 그러면 k 번째 시도는 ‘성공’일 것입니다. 만약 k 번째 시도가 실패였다면 k 번째 시도 전에 이미 m 번의 성공을 달성한 것이기 때문에 m 번의 성공을 위해서 k 번의 시도를 했다는 전개에 위배됩니다.

k 번째 시도가 성공이었기 때문에 k-1 번째의 시도까지 m-1 번의 성공일 해야 합니다. 성공할 확률이 1-p 이고, 실패할 확률이 p 이면, k-1 번째 시도까지 m-1 번의 성공을 할 확률은 {}_{k-1}C_{m-1}\cdot (1-p)^{m-1}p^{k-m} 이 됩니다. 이 확률에 k 번째의 성공 확률인 1-p 까지 곱하면 결과는 {}_{k-1}C_{m-1}\cdot (1-p)^{m}p^{k-m} 이 됩니다. 따라서 분포는 아래와 같이 정의됩니다.

p_{X}(x)=\begin{cases} {}_{k-1}C_{m-1}\cdot (1-p)^{m}p^{k-m},~k=m,m+1,m+2\cdots \\ 0,~\text{otherwise} \end{cases}

음이항 분포는 파스칼 분포(Pascal PMF)라고도 부르며, m p 가 결정되면 정의될 수 있고, 간단하게 \text{pas}(m,p) 라고 표현합니다. 함수는 m p 에 대해서 아래와 같이 그려집니다.

포아송 분포의 확률 질량 함수(Poisson PMF)

포아송 분포(Poisson PMF)는 단위 시간 T 동안 어떤 사건이 몇 번 일어날지에 대한 분포입니다. 예를 들어, 단위 시간 동안 어떤 편의점에 사람이 몇 명 올지에 대한 확률 분포 등을 포아송 분포로 나타낼 수 있습니다.

대신, 평소에 단위 시간 동안 그 편의점에 몇 명이 오는지에 대한 정보 즉, 기댓값 \lambda 가 필요합니다. 평소에 1시간 동안 7명의 손님이 온다면 포아송 분포를 통해 1시간 동안 오는 손님 수에 대한 분포를 그릴 수 있습니다. 포아송 분포의 정의는 아래와 같습니다.

p_{X}(k)=\begin{cases} \frac{\lambda^k e^{-\lambda}}{k!},~k=0,1,2,\cdots \\ 0,~\text{otherwise} \end{cases}

포아송 분포와 이항 분포의 관계

포아송 분포는 \text{bin}(n,\frac{\lambda}{n})과 같은 이항 분포에서 n 이 무한으로 가면 포아송 분포를 따르게 됩니다. 이항 분포의 확률 질량 함수는 아래와 같습니다.

p_{X}(k)={}_{n}C_{k}\bigg(\frac{\lambda}{n}\bigg)^{k}\bigg(1-\frac{\lambda}{n}\bigg)^{n-k}=\frac{n!}{k!(n-k)!}\bigg(\frac{\lambda}{n}\bigg)^{k}\bigg(1-\frac{\lambda}{n}\bigg)^{n-k}

위의 함수의 n! 를 전개하고 식을 정리하면 다음처럼 정리할 수 있습니다.

p_{X}(k)=\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}\cdot\frac{\lambda^{k}}{k!}\cdot\frac{(1-\frac{\lambda}{n})^{n}}{(1-\frac{\lambda}{n})^{k}}

위의 식에서 n 을 무한대로 보내면 포아송 분포와 같이 식이 정리되는 것을 볼 수 있습니다.

\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}\longrightarrow 1 \bigg(1-\frac{\lambda}{n}\bigg)^{n}=\bigg(1-\frac{\lambda}{n}\bigg)^{-\frac{n}{\lambda}\cdot (-\lambda)}\longrightarrow e^{-\lambda} \bigg(1-\frac{\lambda}{n}\bigg)^{k}\longrightarrow 1 p_{X}(k)=1\cdot\frac{\lambda^{k}}{k!}\cdot\frac{e^{-\lambda}}{1}=\frac{\lambda^{k}\cdot e^{-\lambda}}{k!}

정리

확률 질량 함수는 이산 확률 변수의 공역 값(실수)에 대한 확률을 정리한 함수입니다. 샘플에서 확률을 얻는 것이 아니고 실수에서 바로 확률을 구할 수 있다는 점이 확률 질량 함수의 중요한 점이라고 할 수 있습니다.

위에서 다양한 확률 질량 함수들을 살펴보았고, 그 정의역이 대부분 정수라는 것도 확인했습니다. 예제를 통해서 다양한 상황 속에서 확률 질량 함수를 설계하는 연습을 해보면 좋을 것 같습니다.

Leave a Comment

Index