Probability density function(PDF; 확률 밀도 함수)의 정의와 예시 / Random Process #4

확률 질량 함수(probability mass function)는 이산 확률 변수를 기반으로 정의되었습니다. 확률 밀도 함수(probability density function; PDF)는 확률 질량 함수와 매우 유사하나, 연속 확률 변수(continuous random variable)를 기반으로 정의된다는 차이가 있습니다.

이전 포스팅에서 확률 질량 함수는 샘플에 접근하지 않고 실수에서 바로 확률을 구할 수 있도록 해준다고 했습니다. 확률 밀도 함수도 같은 역할을 합니다. 다만, 함수의 생김새가 확률 질량 함수와 다릅니다. 어떤 차이가 있는지 알아보고 유명한 확률 밀도 함수에 대해 알아봅시다.

Probability density function 정의

확률 밀도 함수는 “연속 확률 변수”에 대해서 정의된 함수입니다. 확률 질량 함수의 함수 값이 정확히 “확률”을 의미했다면 확률 밀도 함수의 함수 값은 정확히 “확률”을 의미하지는 않습니다. 연속 확률 변수의 각 샘플들의 확률 값은 0입니다. ( P(X=x)=0 참고: 확률 변수) 링크의 예시처럼 키가 정확히 170cm일 확률은 0입니다. 하지만 키가 170cm 이상 173cm 이하일 확률은 0이 아닙니다. 즉, 값의 범위에 대해서 확률을 가질 수 있습니다.

probability density function
키는 연속 확률 변수의 정의역이 될 수 있다. 출처: lifeoftall.com

확률 밀도 함수는 “적분”을 통해서 확률을 찾도록 정의되었습니다. 키가 170cm 이상 173cm 이하일 확률을 알고 싶다면 확률 밀도 함수를 170부터 173까지 적분하면 확률을 구할 수 있습니다. 다음과 같은 방식으로 확률 밀도 함수를 통해 확률을 구할 수 있습니다.

P(X\in B)=\int_{B}f_{X}(x)dx

P(X\in B) f_{X}(x) 의 적분 통해서 표현되고 미적분학 기본 정리를 따라서 확률 밀도 함수 f_{X}(x) 는 미분 꼴로 정의됩니다.

f_{X}(x):=\lim_{\Delta x\rightarrow 0}\frac{P(x<X\leq x+\Delta x)}{\Delta x}

확률 밀도 함수의 더 자세한 의미는 확률 질량 함수의 정의와 같이 확인해보시면 좋을 것 같습니다.

Probability density function 특징

확률 밀도 함수도 기본적으로 확률을 나타내기 위한 도구이기 때문에 함수 값이 0보다 큽니다. 하지만 확률 질량 함수처럼 1보다 작지는 않습니다. 확률 질량 함수는 “함수 값”이 “확률”이기 때문에 함수 값이 1보다 작습니다. 하지만 확률 밀도 함수는 함수 값이 “확률”을 나타내지 않기 때문에 함수 값이 1보다 클 수 있습니다.

0\leq f_{X}(x)

또한, 확률 질량 함수와 마찬가지로 전체 구간에 대한 확률은 1이 되기 때문에 전체 구간에 대한 적분 값이 1이 됩니다.

\int_{-\infty}^{\infty}f_{X}(x)dx=1

Probability density function 예시

연속 균등 분포(Uniform distribution)의 확률 밀도 함수(Uniform PDF)

연속 균등 분포(Uniform PDF)는 실수 a 부터 실수 b 까지 함수 값이 있고, 함수 값이 일정한 분포입니다. 전체 구간에 대해서 적분 하였을 때, 적분 값이 1이 되어야 하므로 a 부터 b 까지의 함수 값은 1/(b-a) 이 됩니다.

f_{X}(x)=\begin{cases} \frac{1}{b-a},~a\leq x\leq b \\ 0, \text{otherwise} \end{cases}

함수 식에서 구간의 경계 부분 즉, a 혹은 b 를 포함하여야 하는지 제외해야 하는지 의문이 들 수 있습니다. 포함해도 안 해도 상관 없습니다. 확률 밀도 함수는 적분 값이 중요하고 함수 값 자체는 적분을 위한 수단입니다. 따라서, 확률 밀도 함수는 리만 적분 가능이면 됩니다. (위의 예시에서 한 점 정도 불연속 해도 적분이 가능합니다.)

확률 밀도 함수가 균등 분포를 따를 때, 무작위로 수를 발생 시키면 어떤 수가 나올 확률은 균일하게 나타납니다. 이런 분포는 컴퓨터 프로그래밍에서 무작위 수를 뽑을 때 많이 사용됩니다. 연속 균등 분포는 간단하게 \text{unif}(a,b) 라고 나타냅니다.

지수 분포(Exponential distribution)의 확률 밀도 함수(Exponential PDF)

아주 인기가 많은 서버는 요청이 계속해서 들어올 것입니다. 하나의 요청이 들어왔을 때, 얼마나 시간이 지나야 다음 요청이 들어올지 분포를 모델링하고 싶습니다. 서버가 인기가 많기 때문에 금방 새로운 요청이 들어올 확률이 높습니다. 이런 경우, “다음 요청이 들어올 확률”은 지수 분포를 따릅니다. 지수 분포는 아래와 같이 정의됩니다.

f_{X}(x)=\begin{cases} \lambda e^{-\lambda x},~x\geq 0 \\ 0,~\text{otherwise} \end{cases}

위의 예시처럼 지수 분포는 특정 사건이 일어나기까지의 시간을 모델링하는 데 자주 사용됩니다. x 축을 시간( t )라고 할 때, 9T 부터 10T 사이보다는 0 부터 T 사이에 다음 요청이 올 확률이 높을 것입니다. 물론 0 부터 10T 사이에 다음 요청이 올 확률이 가장 높기는 할 것입니다. \lambda 가 결정되면 분포를 결정할 수 있고, 간단하게 \text{exp}(\lambda) 라고 나타냅니다.

정리

확률 밀도 함수는 연속 확률 변수에 대해서 정의되며, 확률 질량 함수와 유사한 점이 아주 많은 함수입니다. 하지만 함수 값이 1보다 클 수 있고, “함수 값”이 아닌 “적분 값”이 확률을 의미한다는 점이 확률 질량 함수와의 차이점이라고 할 수 있습니다.

“균등 분포”와 “지수 분포”를 따르는 확률 밀도 함수를 알아보았습니다. 더욱 중요한 확률 밀도 함수들(예. Gaussian)이 남아 있기 때문에 다음 포스팅에서 다른 종류의 확률 밀도 함수들을 알아보겠습니다.

Leave a Comment

Index