패턴 인식 분야에서 주요한 콘셉트 중 하나는 바로 불확실성입니다. 불확실성은 측정할 때의 노이즈를 통해서도 발생하고, 데이터 집합 수가 제한되어 있다는 한계점 때문에도 발생합니다. 확률론은 불확실성을 계량화하고 조작하기 위한 이론적인 토대를 마련해 주며, 패턴 인식 분야의 중요한 기반이기도 합니다. 1.5절에서 논의할 의사 결정 이론과 이번 절의 확률론을 함께 활용하면, 주어진 정보가 불확실하거나 완전하지 않은 제약 조건하에서도 최적의 예측을 시행할 수 있게 됩니다.

 

 

 

하나의 예시를 들어보겠습니다. 

 

 

그림 1.9

 

한 개의 빨간색 상자와 한 개의 파란색 상자가 있고, 빨간색 상자에는 두 개의 사과와 여섯 개의 오렌지, 파란색 상자에는 한 개의 오렌지와 세 개의 사과가 있습니다. 랜덤 하게 상자 하나를 골라 임의로 과일 하나를 꺼내고, 어떤 과일인지 확인한 후 꺼냈던 상자에다 도로 집어넣는 상황을 생각해봅니다. 빨간색 상자를 고를 확률은 40%, 파란색 상자를 고를 확률은 60%라고 합니다. 상자 안에서 각각의 과일을 고를 확률은 동일하다고 가정합니다.

 

 

이 예시에서 상자는 확률 변수이며, 확률 변수 $B$라고 지칭합니다. 확률 변수 B는 $r$(빨간색 상자)와 $b$(파란색 상자) 두 개의 값을 가질 수 있습니다.

 

 

과일 또한 확률 변수이며, 여기서는 $F$로 지칭합니다. 확률 변수 F는 $a$(사과) 또는 $o$(오렌지)를 값으로 가질 수 있습니다.

 

 

어떤 사건의 '확률'을 무한 번 시도한다고 가정했을 때 어떤 특정 사건이 일어나는 횟수를 전체 시도의 횟수로 나눈 것으로 정의해본다면, $p(B=r)$ = 4/10이고, $p(B=b)$ = 6/10 입니다.

 

 

이러한 확률 말고, 조금 더 복잡한 확률에 대해서 알아보기 위해 먼저 확률의 두 가지 기본 법칙인 합의 법칙(sum rule)곱의 법칙(product rule)에 대해서 먼저 살펴봅니다.

 

 

확률의 법칙을 설명하기 위해, 그림 1.10의 예시를 고려해보겠습니다.

 

 

그림 1.10

 

해당 예시에서는 $X$와 $Y$라는 두 가지 확률 변수를 생각합니다. $X$는 $x_i(i = 1, ..,M)$ 중 아무 값이나 취할 수 있고, $Y$는 $y_j(j = 1, ... L)$ 중 아무 값이나 취할 수 있다고 가정합니다. 여기서 $M$ = 5이고, $L$ = 3입니다.

 

 

또한, $X$와 $Y$ 각각에서 표본을 추출하는 시도를 $N$번 한다고 합니다. 그리고 $X = x_i, Y = y_j$인 시도의 개수를 $n_{ij}$로 표현합니다. 그리고 $Y$의 값과는 상관없이 $X = x_i$인 시도의 숫자를 $c_i$로, $X$의 값과는 상관없이 $Y = y_j$인 시도의 숫자를 $r_j$로 표현할 것입니다.

 

 

$X$가 $x_i$, $Y$가 $y_j$일 확률을 $p(X = x_i, Y = y_j)$로 적고, 이를 $X = x_i, Y = y_j$일 결합 확률(joint probability)이라고 칭합니다. 이는 $i, j$ 칸에 있는 포인트의 숫자를 전체 포인트들의 숫자로 나눠서 구할 수 있는데요, 따라서 다음 식 1.5와 같이 표현할 수 있습니다.

 

 

식 1.5

 

여기서는 $lim N -> \infty$를 가정합니다. 비슷하게 $Y$ 값과 무관하게 $X$가 $x_i$값을 가질 확률을 $p(X = x_i)$로 적을 수 있으며, 이는 $i$열에 있는 포인트들의 숫자를 전체 포인트들의 숫자로 나눔으로써 구할 수 있습니다. 이를 식으로 표현하면 식 1.6로 표현할 수 있습니다.

 

식 1.6

 

 

그림 1.10에서 $i$열에 있는 사례의 숫자는 해당 열의 각 칸에 있는 사례의 숫자 합입니다. 이는 $c_i = \sum_j n_{ij}$로 표현 가능합니다. 따라서, 식 1.5와 식 1.6을 바탕으로 식 1.7을 도출해 낼 수 있습니다.

 

식 1.7

 

이것이 바로 확률의 합의 법칙(sum rule)입니다. 때때로 $p(X= x_i)$는 주변 확률(marginal probability)이라고 불립니다. 

 

 

합의 법칙을 말로 좀 풀어서 생각해보자면, 어떤 주변 확률을 구하려면 결합 확률을 이용해서 구할 수 있는데 결합 확률에 포함된 다른 확률 변수들의 모든 경우를 다 더했을 때 구할 수 있다 정도로 이해해볼 수 있겠습니다.

 

 

훨씬 단순한 예시를 하나 들자면... 상의 2가지 하의 3가지가 있으면 우리가 입을 수 있는 모든 옷의 경우의 수는 6가지가 될 것인데요. 여기서 1번 상의를 입게 될 확률은 결국 1번 상의 + 1번 하의 / 1번 상의 + 2번 하의 / 1번 상의 + 3번 하의를 입을 확률을 더해야 된다는 것이죠. 즉, 내가 어떤 확률 변수에 대한 주변 확률을 구하려면, 결합 확률에 포함된 다른 확률 변수들의 모든 케이스를 다 더했을 때 구할 수 있다는 것입니다.

 

 

 

$X = x_i$인 사례들만 고려해 봅시다. 그들 중에서 $Y = y_j$인 사례들의 비율을 생각해 볼 수 있고, 이를 확률 $p(Y = y_j | X = x_i)$로 적을 수 있습니다. 이를 조건부 확률(conditional probability)이라고 부릅니다. 이 경우엔 $X = x_i$가 주어졌을 경우 $Y = y_j$일 조건부 확률을 의미합니다. 이는 $i$행에 있는 전체 포인트 수와 $i, j$칸에 있는 포인트 수의 비율을 통해서 계산할 수 있습니다.

 

수식 1.8

 

일반 확률과 조건부 확률의 차이라고 한다면, 일반 확률은 시행 횟수 N으로 나누지만 조건부 확률은 시행 횟수 모두를 고려하는 것이 아닌, 조건에 해당하는 경우(위 수식 1.8에서는 $X = x_i$인 경우)만 고려하기 때문에 확률을 구할 때 분모의 값이 달라지게 됩니다. 이 부분이 가장 핵심이라고 생각합니다.

 

 

식 1.5, 식 1.6, 식 1.8에서 다음의 관계를 도출해 낼 수 있습니다.

 

 

식 1.9

이것이 바로 확률의 곱의 법칙(product rule)입니다.

 

 

이를 말로 풀어서 설명하자면, A와 B의 결합 확률은 A를 선택할 확률과 A를 선택했다고 생각했을 때 B를 선택할 확률의 곱이 된다는 것입니다.

 

 

제가 앞에 들었던 상의 2가지, 하의 3가지의 간단한 예시로 생각해보겠습니다. 1번 상의와 1번 하의를 입는 확률을 생각해본다면, 확률은 1/6이 됩니다. 전체 경우의 수 6가지 중 1가지가 되니까요.

 

 

$p(Y = y_j | X = x_i)$를 생각해보겠습니다. $X$를 상의, $Y$를 하의라고 생각하면 이는 1번 상의를 입는다는 가정 하에 1번 하의를 입을 확률입니다. 1번 상의를 입는다고 가정하면, 하의는 1번 2번 3번 총 3가지밖에 없으므로 이는 1/3이 됩니다. 

 

$p(X = x_i)$를 생각해보겠습니다. 상의는 2가지가 있으므로, 1번 상의를 입을 확률은 1/2가 됩니다.

 

 

따라서 식 1.9에서 정의한 것처럼, 1/6 = 1/3 * 1/2 가 성립함을 확인할 수 있습니다.

 

 

지금까지 얘기한 확률의 두 법칙을 조금 더 간단한 표현법을 사용해 표현하면 다음과 같습니다.

 

 

식 1.10, 식 1.11

 

곱의 법칙과 대칭성 $p(X, Y) = p(Y, X)$로부터 조건부 확률 간의 관계인 다음 식을 도출해낼 수 있습니다.

 

 

식 1.12

 

식 1.12는 머신 러닝과 패턴 인식 전반에 걸쳐서 아주 중요한 역할을 차지하고 있는 베이즈 정리(Bayes' theorem)입니다. 위에서 언급한 합의 법칙을 사용하면 베이지안 정리의 분모를 분자에 있는 항들로 표현할 수 있습니다.

 

 

식 1.13

 

베이지안 정리의 분모는 정규화 상수로 볼 수 있습니다. 즉, 식 1.12의 왼쪽 항을 모든 $Y$값에 대하여 합했을 때 1이 되도록 하는 역할인 것이죠.

 

 

이제 원래 논의했던 과일 상자 예시로 돌아가 봅시다. 빨간색 상자를 선택하거나 파란색 상자를 선택하는 확률은 다음과 같습니다.

 

수식 1.14, 수식 1.15

 

위의 식 1.14와 식 1.15의 합이 1을 만족시킨다는 것을 확인할 수 있습니다.

 

 

상자가 주어졌을 때 사과 또는 오렌지를 선택할 확률 네 가지를 다음과 같이 적을 수 있습니다.

 

 

수식 1.16 ~ 수식 1.19

 

마찬가지로, 이 확률들은 정규화되어 있기 때문에 다음 식 1.20과 식 1.21을 만족시킵니다.

 

 

식 1.20, 식 1.21

 

이제 확률의 합의 법칙과 곱의 법칙을 적용하여 사과를 고를 전체 확률을 계산할 수 있습니다.

 

 

수식 1.22

여기에 다시 합의 법칙을 적용하면 $p(F = 0)$ = 1 - 11/20 = 9/20입니다.

 

 

어떤 한 종류의 과일을 선택했는데 그것이 오렌지고, 이 오렌지가 어떤 상자에서 나왔는지를 알고 싶다고 가정해봅니다. 이는 베이지안 정리를 적용해서 구할 수 있습니다.

 

수식 1.23

 

합의 법칙에 따라 $p(B = b | F = o)$ = 1 - 2/3 = 1/3이 됩니다.

 

 

베이지안 정리를 다음과 같이 해석할 수 있습니다.

 

 

만약 어떤 과일이 선택되었는지를 알기 전에 어떤 박스를 선택했냐고 묻는다면 그 확률은 $p(B)$일 것입니다. 이를 사전 확률(prior probability)이라고 부릅니다. 왜냐하면 어떤 과일이 선택되었는지 관찰하기 '전'의 확률이기 때문이죠. 선택된 과일이 오렌지라는 것을 알게 된다면 베이지안 정리를 활용하여 $p(B|F)$를 구할 수 있습니다. 이는 사후 확률(posterior probability)이라고 부를 수 있는데, 이는 사건 $F$를 관측한 '후'의 확률이기 때문입니다.

 

 

이 예시에서 빨간색 상자를 고를 사전 확률은 4/10이므로, 파란색 상자를 고를 확률이 더 높습니다. 하지만, 선택된 과일이 오렌지라는 것을 확인하고 난 후엔 빨간색 상자를 고를 사후 확률이 2/3입니다. 따라서 이제는 우리가 고른 상자가 빨간색이었을 확률이 더 높게 됩니다. 이는 빨간색 상자 안의 오렌지의 비율이 파란색 상자 안의 오렌지의 비율보다 높기 때문이죠. 오렌지를 골랐다는 증거가 충분히 강력하기 때문에 사전 지식을 뒤엎고 빨간색 상자를 골랐을 확률을 파란색 상자를 골랐을 확률보다 더 높게 만들어주는 것입니다.

 

 

$p(X, Y) = p(X)p(Y)$인 경우를 고려해 봅시다. 이처럼 각각의 주변 확률을 곱한 것이 결합 확률과 같을 경우 두 확률 변수를 독립적(independent)이라고 합니다. 곱의 법칙에 따라 $p(Y|X) = p(Y)$임을 알 수 있고, 이는 $X$가 주어졌을 때 $Y$의 조건부 확률은 실제로 $X$의 값과 독립적임을 확인할 수 있습니다. 

 

 

 

1.2.1 확률 밀도

 

 

지금까지는 이산적인 사건들을 바탕으로 확률을 알아보았는데, 이번에는 연속적인 변수에서의 확률에 대해 알아봅니다.

 

 

만약 실수 변수 $x$가 ($x$, $x+\delta x$) 구간 안의 값을 가지고 그 변수의 확률이 $p(x) \delta x$($\delta x$ -> 0 일 경우)로 주어진다면, $p(x)$를 $x$의 확률 밀도(probability density)라고 부릅니다. 이는 그림 1.12로 표현될 수 있습니다.

 

그림 1.12 p(x) => 확률 밀도, P(x) => 누적 분포 함수

 

 

이때 $x$가 (a, b) 구간 사이의 값을 가질 확률은 다음과 같이 주어집니다.

 

식 1.24

 

단순하게, 확률 밀도 함수를 x = a부터 x = b까지 적분을 해주면 확률을 구할 수 있습니다.

 

 

확률은 양의 값을 가지고 $x$의 값은 실수축상에 존재해야 하므로, 다음 두 조건을 만족시켜야 합니다.

 

 

식 1.25, 식 1.26

 

확률 분포 함수는 야코비안 인자로 인해 비선형 변수 변환 시에 일반적인 단순 함수와는 다른 방식으로 변화하게 됩니다. 예를 들어, $x = g(y)$의 변수 변환을 고려해 봅시다. 그러면 함수 $f(x)$는 $\tilde{f}(y)$ = $f(g(y))$가 됩니다. $x$의 확률 밀도 함수 $p_x(x)$와 새로운 변수 $y$의 확률 밀도 함수 $p_y(y)$를 살펴보면 둘이 다른 확률 밀도를 가진다는 것이 자명합니다. ($x$, $x + \delta x$) 범위에 속하는 관찰 값은 범위 ($y$, $y + \delta y$)로 변환될 것입니다. 이때 $p_x(x) \delta x $ $\simeq$ $p_y(y) \delta y $입니다. 따라서 다음과 같습니다.

 

식 1.27

 

이로부터, 확률 밀도의 최댓값은 어떤 변수를 선택하는지에 따라 달라짐을 알 수 있습니다.

 

 

책에는 식 1.27가 어떤 식으로 도출되는지에 대한 내용이 전혀 없어서, 왜 갑자기 저런 식이 나오는지 알 수 없었습니다. 이에 저는 관련된 내용을 찾아서 나름대로 정리를 해 보았는데요.

 

 

식 1.27가 나오는 과정이 궁금하시다면, 아래에 있는 더보기 부분을 누르셔서 확인하실 수 있습니다.

 

더보기

식 1.27을 도출하는 과정

 

저도 다른 분이 쓰신 내용을 토대로 정리한 내용이라, 내용이 틀릴 수 있습니다.

 

$x$ = $g(y)$의 변수 변환을 고려한다고 가정합니다.

 

확률변수 $X$의 확률 밀도 함수는 $f_X(x)$이고, $g^-1(x)$가 $f_X(x)$의 정의역에서 증가하거나 감소하면, $y = g^-1(x)$의 확률밀도함수는 다음과 같습니다.

 

$f_Y(y)$ = $f_X(g(y)) \left| \frac{dx}{dy} \right|$ ($x = g(y)$)

 

i) $g^-1(x)$가 단조 증가함수이면,

$F_Y(y) = P(Y \leq y) = P(g^-1(X) \leq y) = P(X \leq g(y)) = F_X(g(y))$ 이므로 

 

Y의 확률 밀도 함수는 $f_Y(y) = \frac{d}{dy}F_X(g(y)) = \frac{d}{dx}F_X(x)\frac{dx}{dy} = f_X(g(y))\frac{dx}{dy}$

 

ii) $g^-1(x)$가 단조 감소 함수이면,

$F_Y(y) = P(Y \geq y) = P(g^-1(X) \geq y) = P(X \geq g(y)) = 1 - P(x \leq g(y)) = 1 - F_X(g(y))$ 이므로

 

Y의 확률 밀도 함수는 $f_Y(y) = \frac{d}{dy}F_Y(y) = \frac{d}{dy}[1 - F_X(g(y))] = \frac{d}{dy}[1 - F_X(x)]$

 

$= \frac{d}{dx}[1-F_X(x)]\frac{dx}{dy} = -f_X(x)\frac{dx}{dy} = -f_X(g(y))\frac{dx}{dy} = f_X(g(y))(-\frac{dx}{dy})$

 

따라서, Y의 확률 밀도 함수는 $f_Y(y) = f_X(g(y)) \left| \frac{dx}{dy} \right|$ 입니다.

 

이 확률 밀도 함수를 이용하면, 식 1.27처럼 $p_y(y) = p_x(x) \left| \frac{dx}{dy} \right| = p_x(g(y))|g'(y)|$가 됩니다.

 

 

$x$가 ($-\infty, z$) 범위에 속할 확률은 누적 분포 함수(cumulative distribution function)로 표현될 수 있습니다.

 

식 1.28

누적 분포 함수는 곧 $-\infty$부터 $z$까지 확률밀도함수를 적분한 것을 의미합니다.

 

또, 그림 1.12에서 보인 것처럼 $P'(x) = p(x)$ 입니다.

 

 

만약 여러 개의 연속적인 변수 $x_1, ... x_D$가 주어지고 이 변수들이 벡터 $\bf{x}$로 표현될 경우에 결합 확률 밀도 $p(\bf{x}$$)$ = $p(x_1, .. x_D)$를 정의할 수 있습니다. 이 확률 밀도에서 $\bf{x}$가 포인트 $\bf{x}$를 포함한 극솟값 $\delta \bf{x}$에 포함될 확률은 $p(\bf{x}$$)$$\delta \bf{x}$로 주어집니다. 이 다변량 확률 밀도는 다음 조건을 만족해야 합니다.

 

식 1.29, 식 1.30

 

식 1.30에서의 적분은 전체 $x$ 공간에 대해서 시행하는 것이며, 이산형 변수와 연속형 변수가 조합된 경우에 대해서도 결합 확률 분포를 고려하는 것이 가능합니다.

 

 

만약 $x$가 이산 변수일 경우 $p(x)$를 때때로 확률 질량 함수(probability mass function)라고 부르기도 합니다. 

 

연속 변수의 확률 밀도와 이산형 변수/연속형 변수가 조합된 경우의 확률 밀도에서도 합의 법칙, 곱의 법칙, 베이지안 정리를 적용할 수 있습니다. 예를 들어 $x, y$가 실수 변수인 경우, 합과 곱의 법칙은 다음과 같이 표현할 수 있습니다.

 

식 1.31, 식 1.32

 

 

1.2.2 기댓값과 공분산

 

 

 

확률 밀도 $p(x)$ 하에서 어떤 함수 $f(x)$의 평균값은 기댓값(expectation)이라 하며, $E[f]$라 적습니다.

 

 

이산 분포의 경우 기댓값은 다음과 같이 주어집니다.

 

식 1.33

쉽게 생각하면, 각 $x$ 값에 대해 해당 확률을 가중치로 사용해서 가중치 x 값을 이용해서 가중 평균을 구하는 것입니다.

 

연속 변수의 경우에는 확률 밀도에 대해 적분을 해서 기댓값을 구합니다.

 

식 1.34

 

만약 유한한 $N$개의 포인트를 확률 분포 또는 확률 밀도에서 추출했다면, 포인트들의 합으로 기댓값을 근사할 수 있습니다.

 

식 1.35

 

다변수 함수의 기댓값을 구할 경우에는 어떤 변수에 대해 평균을 내는지를 지정해서 계산할 수 있습니다.

 

식 1.36

식 1.36은 함수 $f(x, y)$의 평균값을 $x$의 분포에 대해 구하라는 의미입니다. 이는 $y$에 대한 함수가 될 것입니다. ($x$에 대해서 계산한 것이므로)

 

 

또한, 조건부 분포에 해당하는 조건부 기댓값(conditional expectation)도 생각해 볼 수 있습니다.

 

식 1.37

 

 

$f(x)$의 분산(variance)은 다음과 같이 정의됩니다.

 

식 1.38

분산은 $f(x)$가 평균값으로부터 전반적으로 얼마나 멀리 분포되어 있는지를 나타내는 값입니다. 위 식을 전개하면 다음과 같이 표현할 수 있습니다.

 

식 1.39

고등학교 수학에서는 보통 제곱의 평균 - 평균의 제곱으로 많이 외우곤 합니다.

 

 

두 개의 확률 변수 $x$와 $y$에 대해서 공분산(covariance)은 다음과 같이 정의됩니다.

 

식 1.41

 

공분산은 $x$ 값과 $y$ 값이 얼마나 함께 같이 변동하는가에 대한 지표이며, 서로 독립이면 공분산은 0입니다.

 

 

두 확률 변수 $x$와 $y$가 벡터일 경우에는 공분산은 행렬이 됩니다.

 

식 1.42

 

 

 

1.2.3. 베이지안 확률

 

 

지금까지 우리는 확률을 '반복 가능한 임의의 사건의 빈도수'라는 측면에서 살펴보았습니다. 이러한 해석을 고전적(classical) 또는 빈도적(frequentist) 관점이라고 일컫는데요. 이보다 더 포괄적인 베이지안(Bayesian) 관점에 대해서 살펴봅니다. 베이지안 관점을 이용하면 확률을 이용해 불확실성을 정량화하는 것이 가능합니다.

 

 

어떤 불확실한 사건에 대해서 생각해보겠습니다. 예를 들어 '북극의 빙하가 이번 세기까지 다 녹아 없어진다'는 사건을 생각해보면, 이런 사건들은 여러 번 반복할 수 없습니다. 따라서 빈도적 관점에서 확률을 정의하는 것이 불가능합니다. 물론, 우리는 이러한 사건들에 대해 어떤 견해를 가지고 있긴 할 텐데요. 예를 들면 '북극의 얼음이 이 정도 속도로 녹는다'와 같은 의견이 될 수 있습니다.

 

 

만약 우리가 새로운 증거를 추가할 수 있다면 얼음이 녹는 속도에 대한 우리의 의견을 수정할 수 있을 것입니다. 이런 증거가 강력하다면 우리의 판단에 따라 취할 행동이 바뀔 수도 있죠. 예를 들어서, 얼음이 녹는 속도가 빠르다는 증거를 관측했다면 기후 변화를 늦추기 위해 노력할 수 있습니다. 이런 상황들에서 주어진 불확실성을 정량화하고, 새로운 증거가 주어질 때마다 불확실성을 수정하고 그 결과에 따라 최적의 선택을 내리고 싶을 때, 이것이 가능하게 해주는 방법론이 바로 확률의 베이지안 해석입니다. 즉 확률을 불확실성을 나타내는 도구로 활용하는 것이죠.

 

 

확률에 대한 개념을 더 일반적으로 확장하는 것은 패턴 인식 분야에서도 큰 도움이 됩니다. 1.1절의 다항 곡선 피팅 예시를 다시 생각해보겠습니다. 적합한 모델 매개변수 $\bf{w}$를 정하는 데 있어서 불확실성을 수치화하고 표현하려면 어떻게 해야 할까요? 이때 베이지안 관점을 사용하면 확률론의 다양한 장치들을 활용하여 $\bf{w}$와 같은 모델 매개변수의 불확실성을 설명할 수 있습니다. 더 나아가, 베이지안 관점은 모델 그 자체를 선택하는 데 있어서도 유용합니다.

 

 

앞의 과일 상자 예시에서 어떤 과일이 선택되었는지에 대한 관측 결과가 선택된 상자가 어떤 것이었을지에 대한 확률을 바꾸었던 것을 기억해 봅시다. 해당 예시에서 베이지안 정리는 관측값들을 이용하여 사전 확률을 사후 확률로 바꾸는 역할을 했습니다. 다항 곡선 피팅 예시의 매개변수 $\bf{w}$와 같은 값들을 추론해 내는 데 있어서도 비슷한 방식을 사용할 수 있습니다. 

 

 

일단, 첫 번째로 데이터를 관측하기 전의 $\bf{w}$에 대한 우리의 가정을 사전 확률 분포 $p(\bf{w})$로 표현할 수 있습니다. 관측된 데이터 $D$ = {${t_1, ... t_N}$}은 조건부 확률 $p(D|\bf{w})$로써 작용하게 됩니다. 이 경우 베이지안 정리는 다음의 형태를 띱니다.

 

식 1.43

$D$를 관측한 후의 $\bf{w}$에 대한 불확실성을 사후 확률 $p(\bf{w}$$|D)$로 표현한 것입니다.

 

베이지안 정리의 오른쪽에 있는 값 $p(D|\bf{w})$은 관측 데이터 집합 $D$를 바탕으로 계산됩니다. 이 값은 매개변수 벡터 $\bf{w}$의 함수로 볼 수 있으며, 가능도 함수(likelihood function)라고 불립니다. 가능도 함수는 각각의 다른 매개변수 벡터 $\bf{w}$에 대해 관측된 데이터 집합이 얼마나 '그렇게 나타날 가능성이 있었는지'를 표현합니다. 가능도 함수는 $\bf{w}$에 대한 확률 분포가 아니며, 따라서 $\bf{w}$에 대해 가능도 함수를 적분하여도 1이 될 필요가 없습니다.

 

 

가능도 함수에 대한 정의를 바탕으로 베이지안 정리를 다음처럼 적을 수 있습니다.

 

식 1.44

posterior = 사후 확률, likelihood = 가능도, prior = 사전 확률입니다.

 

 

식 1.44의 각 값은 전부 $\bf{w}$에 대한 함수입니다. 

 

 

식 1.43 오른쪽 변의 분모는 식 왼쪽 변의 사후 분포가 적절한 확률 분포가 되고 적분 값이 1이 되도록 하기 위한 정규화 상수입니다. 식 1.43 오른쪽 변의 분모는 다음과 같이 구할 수 있습니다.

 

식 1.45

 

 

가능도 함수 $p(D|\bf{w})$는 베이지안 확률 관점과 빈도적 확률 관점 모두에게 굉장히 중요한 역할을 합니다. 하지만 가능도 함수가 사용되는 방식은 양 접근법에서 근본적으로 다릅니다.

 

먼저, 빈도적 확률 관점에서는 $\bf{w}$가 고정된 매개변수로 여겨지며, 그 값은 어떤 형태의 '추정 값'을 통해서 결정됩니다. 그리고 추정에서의 오류는 가능한 데이터 집합들 $D$의 분포를 고려함으로써 구할 수 있습니다.

 

 

이와는 대조적으로 베이지안 확률 관점에서는 오직 하나의 데이터 집합 $D$만이 존재하고 매개변수의 불확실성은 $\bf{w}$의 확률 분포를 통해 표현됩니다.

 

 

빈도적 확률 관점에서 널리 사용되는 추정 값 중 하나는 바로 최대 가능도(maximum likelihood)입니다. 최대 가능도를 사용할 경우에 $\bf{w}$는 가능도 함수 $p(D|\bf{w})$를 최대화하는 값으로 선택됩니다. 머신러닝 문헌에서는 종종 음의 로그 가능도 함숫값을 오차 함수(error function)이라고 합니다. 음의 로그 함수는 단조 감소하는 함수이기 때문에 가능도의 최댓값을 찾는 것이 오차를 최소화하는 것과 동일하기 때문입니다.

 

 

빈도적 확률론자들이 오차를 측정하는 방법 중 하나가 바로 부트스트랩(bootstrap) 방법입니다. 원 데이터 집합이 $N$개의 데이터 포인트 $X$ = {$\bf{x_1}, ..., \bf{x_N}$}이라고 가정해봅니다. $\bf{X}$에서 $N$개의 데이터 포인트를 임의로 추출하여 데이터 집합 $\bf{X_B}$를 만드는데, 이때 한번 추출된 값도 다시 추출 대상으로 고려될 수 있도록 하는 방식을 사용합니다. 즉 어떤 값은 중복될 수도 있고, 아예 포함되지 않을 수도 있습니다. 이 과정을 $L$번 반복하면 원래 데이터 집합의 표본에 해당하는 크기 $N$의 데이터 집합을 $L$개 만들 수 있습니다. 각각의 부트스트랩 데이터 집합에서의 예측치와 실제 매개변수 값과의 차이를 바탕으로 매개변수 추정 값의 통계적 정확도를 판단할 수 있습니다.

 

 

베이지안 관점의 장점 중 하나는 사전 지식을 추론 과정에 자연스럽게 포함시킬 수 있다는 점입니다. 예를 들어 멀쩡하게 생긴 동전 하나를 세 번 던졌는데, 세 번 다 앞면이 나왔다고 해봅시다. 고전적인 최대 가능도 추정을 통해 추론한다면 앞으로는 앞면이 나올 확률이 1일 것입니다. 미래의 모든 동전 던지기에서 앞면만 나올 것이라고 예측한다는 말입니다. 대조적으로 베이지안적으로 접근할 경우 적당히 합리적인 사전 확률을 사용한다면 이렇게까지 과도한 결론이 나오지는 않을 것입니다.

 

 

빈도적 확률 관점과 베이지안 확률 관점 중 어떤 것이 더 상대적으로 우수한지에 대해서는 끊임없는 논쟁이 있습니다. 베이지안 접근법에 대한 비판 중 하나는 사전 분포가 실제 사전의 믿음을 반영하기보다는 수학적인 편리성을 위해서 선택된다는 것입니다. 베이지안 관점에서는 사전 확률의 선택에 따라 결론이 나기 때문에 추론 과정에 주관이 포함될 수밖에 없습니다. 이 때문에 적절한 사전 확률을 선택하는 것이 어려운 경우도 있습니다. 사전 분포에 대한 의존도를 낮추기 위해 무정보적(noninformative) 사전 분포를 사용하는 경우도 있지만, 이는 서로 다른 모델을 비교하기 어렵게 만듭니다. 그리고 실제로 좋지 않은 사전 분포를 바탕으로 한 베이지안 방법은 부족한 결과물을 높은 확신으로 내놓기도 합니다. 

 

 

 

 

1.2 확률론 내용이 많아서, 여기서 끊고 1.2.4 가우시안 분포부터 다음 글에서 다루도록 하겠습니다.

 

 

 

 

 

+ Recent posts