해당 글에서는 Chapter 1. (2)인 확률론에서 1.2.4인 가우시안 분포부터를 다루고 있습니다.
1.2.4 가우시안 분포
이번 장에서는 정규 분포(normal distribution)라고도 불리는 가우시안 분포(Gaussian distribution)에 대해 살펴봅니다.
단일 실수 변수 $x$에 대해서 가우시안 분포는 다음과 같이 정의됩니다.
식 1.46은 두 개의 매개변수 $\mu$와 $\sigma^2$에 의해 통제됩니다. $\mu$는 평균(mean), $\sigma^2$는 분산(variance)입니다.
분산의 제곱근 값인 $\sigma$는 표준 편차(standard deviation)이라고 불립니다. 또한, 분산의 역수에 해당하는 $\beta$ = $1/\sigma^2$는 정밀도(precision)이라고도 합니다. 매개변수들이 왜 이런 이름을 가지는지에 대해서 곧 살펴봅니다. 가우시안 분포를 그리면 그림 1.13처럼 나타납니다.
종 모양의 그림이 되고, 중심이 $\mu$이며 폭이 $2\sigma$인 그래프가 됩니다.
식 1.46으로부터, 가우시안 분포가 다음의 성질을 만족함을 확인할 수 있습니다.
또한, 다음의 성질도 만족합니다.
따라서, 식 1.46은 확률 밀도의 두 가지 조건을 만족시킵니다.
가우시안 분포를 따르는 임의의 $x$에 대한 함수의 기댓값을 구할 수 있습니다. 특히 $x$의 평균값은 다음과 같습니다.
이를 통해 평균값 매개변수 $\mu$가 $x$의 기댓값과 동일함을 확인할 수 있습니다. 이와 비슷하게 $x$에 대한 이차 모멘트는 다음과 같습니다.
식 1.49와 식 1.50으로부터 $x$의 분산을 다음과 같이 계산할 수 있습니다.
$\sigma^2$가 분산임을 확인할 수 있습니다. 분포의 최댓값을 최빈값(mode)이라 하는데, 가우시안 분포의 경우에는 최빈값과 평균값이 동일합니다.
관측된 데이터 $\bf{x}$ = ($x_1$, ... $x_N$)$^T$를 살펴봅니다. 이는 관측된 $N$개의 스칼라 변수 $x$를 지칭합니다. 평균값 $\mu$와 분산 $\sigma^2$를 가지는 가우시안 분포에서 관측값들을 독립적으로 추출한다고 가정합니다.
데이터 집합으로부터 이 매개변수들을 결정하는 것이 우리의 현재 목표입니다.
같은 분포에서 독립적으로 추출된 데이터 포인트들을 독립적이고 동일하게 분포(independent and identically distributed, i.i.d)되었다고 한다. 앞에서 두 독립 사건의 결합 확률은 각 사건의 주변 확률의 곱이라고 하였으므로, i.i.d인 우리의 데이터 집합 $\bf{x}$은 $\mu$와 $\sigma^2$가 주어졌을 때의 조건부 확률을 다음과 같이 적을 수 있습니다.
$\mu$와 $\sigma^2$의 함수로 보면 이 식은 가우시안 분포의 가능도 함수에 해당합니다. 이전에 우리가 가능도 함수를 $p(D|\bf{w}$$)$로 표현했던 것을 생각해보면, 여기서 $\bf{w}$는 매개변수들의 집합이었으며 가우시안 분포에서는 이것이 바로 $\mu$와 $\sigma^2$가 됩니다.
식 1.53를 그림으로 표현한 것이 바로 그림 1.14 입니다.
그림 1.14에서 빨간색 곡선이 바로 가능도 함수입니다. 여기서 $x$축에 있는 검은색 포인트는 ${x_n}$을 값으로 가지는 데이터 집합을 지칭하며, 식 1.53으로 주어진 가능도 함수는 파란색 포인트의 값들의 곱에 해당합니다. 평균값과 분산을 조정하여 해당 곱을 최대화함으로써 가능도를 최대화할 수 있습니다.
관측된 데이터 집합을 바탕으로 확률 분포의 매개변수를 결정하는 표준적인 방법 중 하나는 가능도 함수를 최대화하는 매개변수를 찾는 것입니다. 가능도 함수를 그냥 사용하지 않고 여기에 로그를 취해서 사용하게 되는데, 로그 함수는 변수에 대해 단조 증가하는 함수이므로 로그를 취한 후 최댓값을 찾는 것이 결국 원래 함수의 최댓값을 찾는 것과 동일하기 때문입니다. 로그를 취함으로써 추후 수학적 분석이 간단해지고, 컴퓨터 계산의 수치적인 측면에서도 도움이 된다고 합니다.
식 1.46과 식 1.53에 따라 로그 가능도 함수를 다음과 같이 적을 수 있습니다.
이에 대해서 $\mu$로 미분했을 때 0이 나오는 최댓값을 찾게 되면 다음의 최대 가능도 해 $\mu_{ML}$를 찾을 수 있습니다.
이는 관찰된 값 {$x_n$}들의 평균인 표본 평균(sample mean)입니다. 이와 비슷한 방식으로 식 1.54의 최댓값을 $\sigma^2$에 대해서 찾으면 분산에 대한 최대 가능도 해를 다음과 같이 찾을 수 있습니다.
이는 표본 평균에 대해 계산된 표본 분산(sample variance)입니다. 가우시안 분포의 경우는 $\mu$에 대한 해가 $\sigma^2$에 대한 해와 연관되어 있지 않습니다. 따라서 식 1.55를 먼저 계산하고 이 결과를 사용해서 식 1.56를 계산할 수 있습니다.
이 장의 뒷부분과 책의 나머지 부분에서 최대 가능도 방법의 한계점에 관해 더 자세히 이야기할 것이지만, 여기서는 우리가 현재 다루고 있는 단변량 가우시안 분포를 기준으로 최대 가능도 방법을 통해 계산한 매개변수값이 어떤 문제를 가지고 있는지 살펴보겠습니다.
최대 가능도 방법은 구조적으로 분포의 분산을 과소평가하게 되는데, 이는 편향(bias)이라고 불리는 현상의 예시로써 다항식 곡선 피팅에서 살펴본 과적합 문제와 연관되어 있습니다.
통계에서 편향이란, 추정량과 모수의 차이를 의미합니다. 예를 들어서, 실제로 평균이 1이고 분산이 0인 가우시안 분포에서 샘플을 뽑는다고 가정합니다. 이때, 샘플을 여러 번 뽑는 과정을 통해서 평균이 1이고 분산이 1이라고 추정했습니다. 이렇게 된다면, 분산에 편향이 발생한 것이다 라고 생각하시면 됩니다.
최대 가능도 해인 $\mu_{ML}$과 $\sigma^2_{ML}$는 데이터 집합인 $x_1, ...x_N$의 함수입니다. $\mu$와 $\sigma^2$를 모수로 하는 가우시안 분포에서 추출된 각 데이터 집합의 값에 대해 이들의 기댓값을 고려해봅시다.
책에는 너무 당연하다는 식으로 써있지만, 갑자기 왜 이들의 기댓값을 고려해보는지에 대해서 생각해보았습니다.
우리가 표본추출을 통해서 모집단의 평균을 구할 때, 표본평균의 평균을 구하게 됩니다.
또, 표본추출을 통해서 모집단의 분산을 구할 때, 표본분산의 평균을 구하게 됩니다.
따라서, 이와 같은 원리로 식 1.57은 표본평균($\mu_{ML}$)의 평균을 구해서 모집단의 평균을 추정한 것이고
식 1.58은 표본분산($\sigma^2_{ML}$)의 평균을 구해서 모집단의 분산을 추정한 것입니다.
따라서 평균적으로 최대 가능도 추정을 이용하면 평균은 올바르게 구할 수 있지만, 분산은 ($N$ - 1)/$N$만큼 과소평가하게 됩니다. 이 결과에 대한 직관적인 설명은 그림 1.15에서 확인할 수 있습니다.
그림 1.15를 보면, 최대 가능도 방법을 이용해서 가우시안 분포의 분산을 구하고자 할 때 어떻게 편향이 생기는지를 확인할 수 있습니다. 녹색 곡선은 데이터가 만들어진 실제 가우시안 분포를 나타내며, 세 개의 빨간색 곡선은 세 개의 데이터 집합에 대해 식 1.55와 식 1.56의 최대 가능도 방법을 이용해서 피팅한 가우시안 분포를 나타냅니다.
각각의 데이터 집합은 두 개의 데이터 포인트를 포함하고 있으며, 파란색 원으로 표시되어 있습니다. 세 개의 데이터 집합에 대해 평균을 내면 평균값은 올바르게 계산되지만, 분산 값은 실제 평균값이 아닌 표본 평균값을 기준으로 분산을 계산하기 때문에 구조적으로 과소평가될 수밖에 없습니다.
즉, 분산 값을 계산할 때 실제 평균값(해당 그림에서 가장 중앙에 뾰족 튀어나온 지점)을 기준으로 해서 분산을 계산하는 것이 아닌, 표본 평균값(해당 빨간색 그래프의 평균값)을 기준으로 분산을 계산하므로 실제 분산 값에 비해서 더 적은 값으로 계산된다는 것입니다.
직접 손으로 계산해보지 않더라도, 중앙에 뾰족 튀어나온 지점을 기준으로 분산을 계산하는 것과, 해당 빨간색 그래프의 평균값을 기준으로 분산을 계산하는 것에는 차이가 있다는 것이 느껴지실 것입니다.
식 1.58로부터 다음 식 1.59에서 보이는 분산 추정치는 비편향임을 알 수 있습니다.
데이터 포인트의 개수인 $N$이 커질수록 최대 가능도 해에서의 편향치는 점점 줄어들게 됩니다. 만약 $N$이 무한대로 갈 경우에는 최대 가능도 해의 분산과 데이터가 추출된 원 분포의 분산이 같아짐을 확인할 수 있습니다. 실제 적용 사례에서는 $N$이 아주 작은 경우가 아니면 이 편향은 그렇게까지 큰 문제는 되지 않습니다.
하지만 이 책 전반에 걸쳐 많은 매개변수를 포함한 복잡한 모델에 대해 살펴볼 것인데, 이 경우 최대 가능도 방법과 연관된 편향 문제는 더욱 심각해집니다. 최대 가능도 방법의 편향 문제는 우리가 앞에서 살펴본 다항식 곡선 피팅에서의 과적합 문제의 근본적인 원인에 해당합니다.
1.2.5 곡선 피팅
앞에서는 다항식 곡선 피팅 문제를 오차 최소화의 측면에서 살펴보았습니다. 여기서는 같은 곡선 피팅 문제를 확률적 측면에서 살펴봄으로써 오차 함수와 정규화에 대한 통찰을 얻어봅니다. 또한, 완전한 베이지안 해결법을 도출하는 데 도움이 될 것입니다.
곡선 피팅 문제의 목표는 $N$개의 입력값 $\bf{x}$ = ($x_1, ... x_N$)$^T$과 해당 표적 값 $\bf{t}$ = ($t_1, ... t_N$)$^T$가 주어진 상황에서 새로운 입력 변수 $x$가 주어졌을 때 그에 대한 타깃 변수 $t$를 예측해 내는 것입니다.
확률 분포를 이용해서 타깃 변수의 값에 대한 불확실성을 표현할 수 있습니다. 이를 위해서 주어진 $x$값에 대한 $t$값이 $y(x, \bf{w}$$)$를 평균으로 가지는 가우시안 분포를 가진다고 가정합니다. 여기서 $y(x, \bf{w}$$)$는 앞의 식 1.1에서 주어졌던 다항식 곡선입니다. 이를 바탕으로 다음의 조건부 분포를 적을 수 있습니다.
여기서 사용한 $\beta$는 정밀도 매개변수로 분포의 분산의 역수에 해당합니다. 이 식을 도식화해 놓은 것이 바로 그림 1.16입니다.
해당 그림에서 파란색 점과 빨간색 점은 설명을 위해 제가 그린 점입니다.
일단 빨간색 곡선으로 그려진 것은 우리가 데이터를 통해서 학습시킨 다항식 곡선이라고 보시면 됩니다. 그림에서는 $y(x, \bf{w}$$)$라고 표현되어 있습니다.
그리고 그림에서 $y(x_0, w)$라고 표시된 것은, $x$의 값이 $x_0$일 때, 다항식 곡선을 이용해서 예측된 prediction 값이라고 보시면 되겠습니다.
우리는 현재 주어진 $x$ 값에 대한 $t$값이 이 예측된 값을 평균으로 가지는 가우시안 분포를 가진다고 가정하기 때문에, 그림이 현재 형광 녹색으로 표시된 지점을 기준으로 파란색으로 그려진 가우시안 분포가 그려진 것입니다.
그렇다면, 해당 그림에서 특정 지점(데이터 포인트)에 대해서 조건부 확률 값을 어떻게 구할까요?
예를 들어서, 데이터가 $x$ 값이 $x_0$일 때, 파란색 점이 타깃 변수(정답 값) $t$의 위치라고 하겠습니다.
그렇다면 해당 타깃 변수의 값에 대한 조건부 확률 값은, 파란색 가우시안 곡선으로 그려진 $p(t|x_0, w, \beta)$로 계산되는 값이 될 것이며, 그림 상에서 빨간색 점이 됩니다.
가우시안 분포의 특성상, 타깃 변수의 값이 가우시안 분포의 평균과 동일할 때, 조건부 확률 값이 가장 커질 것이며 타깃 변수의 값과 가우시안 분포의 평균이 멀어질수록 조건부 확률 값이 작아질 것입니다.
이제 훈련 집합 {$\bf{x}, \bf{t}$}를 바탕으로 최대 가능도 방법을 이용해 알려지지 않은 매개변수 $\bf{w}$와 $\beta$를 구해보도록 합시다. 만약 데이터가 식 1.60의 분포에서 독립적으로 추출되었다고 가정하면, 가능도 함수는 다음과 같이 주어집니다.
앞에서와 마찬가지로 가능도 함수에 로그를 취해 그 최댓값을 구하는 것이 편리합니다. 식 1.46의 가우시안 분포를 대입해 넣으면 다음과 같은 형태의 로그 가능도 함수를 얻게 됩니다.
첫 번째로 다항식 계수 $\bf{w_{ML}}$의 최대 가능도 해를 구해봅니다.
$\bf{w}$에 대해 식 1.62를 최대로 만드는 값을 구하면 됩니다. 이 과정에서 식 1.62의 오른쪽 변의 마지막 두 항은 관련이 없으므로 제외합니다. 또한, 로그 가능도에 양의 상수를 곱해도 상관없으므로, 맨 앞의 계수를 1/2로 바꿔줍니다. 마지막으로 로그 가능도를 최대화하는 대신에 로그 가능도의 음의 값을 취한 후, 이를 최소화할 수 있습니다. 이를 식으로 표현하자면 $min \frac{1}{2} \sum_{n=1}^N\left\{y(x_n, w)-t_n\right\}^2$이 됩니다.
결과적으로 $\bf{w}$를 구하는 경우에 가능도 함수를 최대화하는 것은 식 1.2에서 나왔던 제곱합 오차 함수를 최소화하는 것과 같다는 것을 알 수 있습니다. 노이즈가 가우시안 분포를 가진다는 가정하에 가능도 함수를 최대화하는 시도의 결과로 제곱합 오차 함수를 유도할 수 있는 것입니다.
마찬가지로 가우시안 조건부 분포의 정밀도 매개변수 $\beta$를 결정하는 데도 최대 가능도 방법을 사용할 수 있으며, 식 1.62를 $\beta$에 대해 최대화하면 다음의 식이 도출됩니다.
단순 가우시안 분포의 경우와 마찬가지로 평균값에 해당하는 매개변수 벡터 $\bf{w_{ML}}$을 먼저 구한 후에 이를 사용하여 정밀도 $\beta_{ML}$를 구할 수 있습니다.
매개변수 $\bf{w}$와 $\beta$를 구했으니 이제 이를 바탕으로 새로운 변수 $x$에 대해 예측값을 구할 수 있습니다. 이제 우리는 확률 모델을 사용하고 있으므로 예측값은 전과 같은 하나의 점 추정값이 아닌 $t$에 대한 예측 분포(predictive distribution)으로 표현될 것입니다. 최대 가능도 매개변수들을 식 1.60에 대입하면 다음을 얻을 수 있습니다.
이를 설명해보자면 다음과 같이 설명할 수 있을 것 같습니다.
input value $x$에 대해서, 피팅된 곡선(곡선의 가중치 $\bf{w_{ML}}$)를 이용하면 예측값을 구할 수 있습니다.
이 예측값을 평균으로, $\beta^{-1}_{ML}$를 분산으로 하는 가우시안 분포를 t가 따른다는 것입니다. 그래서 예측 분포라는 용어를 사용하여 식 1.64를 설명한 것이라고 이해를 해볼 수 있을 것 같습니다.
베이지안 방식을 향해 한 걸음 더 나아가 보겠습니다. 이를 위해 다항 계수 $\bf{w}$에 대한 사전 분포를 도입할 것입니다. 문제의 단순화를 위해 다음 형태를 지닌 가우시안 분포를 사용해봅니다.
여기서 $\alpha$는 분포의 정밀도이며, $M + 1$은 $M$차수 다항식 벡터 $\bf{w}$의 원소의 개수입니다. ($M$차수 이면 마지막 상수항 $w_0$가 존재하므로 $M +1$개가 되는 것으로 생각이 됩니다.) $\alpha$와 같이 모델 매개변수의 분포를 제어하는 변수들을 초매개변수(hyperparameter)라 합니다. 베이지안 정리에 따라서 $\bf{w}$의 사후 분포는 사전 분포와 가능도 함수의 곱에 비례합니다.
이제 주어진 데이터에 대해 가장 가능성이 높은 $\bf{w}$를 찾는 방식으로 $\bf{w}$를 결정할 수 있습니다. 바꿔 말하면 사후 분포를 최대화하는 방식으로 $\bf{w}$를 결정할 수 있다는 것입니다. 이 테크닉을 최대 사후 분포(maximum posterior, MAP)라고 합니다. 식 1.66에 대해 음의 로그를 취한 식 1.62, 식 1.65와 결합하면 사후 확률의 최댓값을 찾는 것이 다음 식 값의 최솟값을 찾는 것과 동일함을 알 수 있습니다.
식 1.66에 음의 로그를 취하면
식 1.62와 식 1.65의 합으로 구성됩니다. 여기서 우리는 적절한 $\bf{w}$를 구하는 것이 목표이므로, $\frac{N}{2}ln\beta$ 등의 상수항들을 제외해줍니다.
그러고 나서 -를 곱해줘서 최소화 문제로 바꿔주면, 식 1.67을 최소화하는 문제로 바뀌게 됩니다.
이처럼 사후 분포를 최대화하는 것이 정규화 매개변수가 $\lambda = \alpha/\beta$로 주어진 식 1.4의 정규화된 제곱합 오차 함수를 최소화하는 것과 동일함을 확인할 수 있습니다.
1.2.6 베이지안 곡선 피팅
비록 사전 분포 $p(\bf{w}$|$\alpha$)를 포함시키긴 했지만, 여전히 $\bf{w}$에 대해서 점 추정을 하고 있기 때문에 아직은 완벽한 베이지안 방법론을 구사한다고 말할 수 없습니다. 완전한 베이지안적 접근을 위해서는 확률의 합의 법칙과 곱의 법칙을 일관적으로 적용해야 합니다. 이를 위해서는 모든 $\bf{w}$ 값에 대해서 적분을 시행해야 합니다. 이러한 주변화(marginalization)가 패턴 인식에서의 베이지안 방법론의 핵심입니다.
곡선 피팅 문제의 목표는 훈련 집합 데이터 $\bf{x}$와 $\bf{t}$가 주어진 상황에서 새로운 변수 $x$에 대한 타깃 값 $t$를 예측하는 것입니다. 이 목표를 위해서 예측 분포 $p(t|x, \bf{x}, \bf{t}$$)$를 구해봅시다. 여기서는 매개변수 $\alpha$와 $\beta$는 고정되어 있으며, 미리 알려졌다고 가정합니다.
단순히 말하자면 베이지안 방법은 단지 확률의 합과 곱의 법칙을 계속적으로 적용하는 것입니다. 이를 통해 예측 분포를 다음과 같은 형태로 적을 수 있습니다.
여기서 $p(t|x, \bf{w}$$)$는 식 1.60에서 주어진 것입니다. 간략한 표기를 위해 $\alpha$와 $\beta$에 대한 종속성은 생략했습니다.
$p(w|\bf{x}, \bf{t}$$)$는 매개변수들에 대한 사후 분포이며, 식 1.66의 오른쪽 변을 정규화함으로써 구할 수 있습니다.
3.3절에서는 곡선 피팅 예시와 같은 문제의 경우 사후 분포가 가우시안이며, 해석적으로 계산할 수 있다는 것에 대해서 살펴봅니다. 이와 비슷하게 식 1.68의 적분을 시행하면 예측 분포가 다음의 식 1.69와 같이 가우시안 분포로 주어진다는 것을 알 수 있습니다.
여기서 평균과 분산은 다음과 같습니다.
행렬 $\bf{S}$는 다음처럼 주어집니다.
$\bf{I}$는 단위 행렬이며, $\phi(x)$는 각각의 원소가 $i = 0, ..., M$에 대해 $\phi_i(x) = x^i$인 벡터입니다.
아마 이거 읽는 분들도 이게 왜 나왔을까... 궁금하시겠지만 따로 뭐 도출 과정이나 이런 게 책에 없어서 왜 이렇게 계산되었는지는 알 수가 없었네요 ㅠㅠ
식 1.69를 살펴보면, 예측 분포의 평균과 분산이 $x$에 종속되어 있음을 알 수 있습니다. 타깃 변수의 노이즈로 인한 예측값 $t$의 불확실성이 식 1.71의 첫 번째 항에 표현되어 있습니다. 이 불확실성은 식 1.64의 최대 가능도 예측 분포에서 $\beta^-1_{ML}$로 이미 표현되었습니다. 하지만 식 1.71의 두 번째 항은 $\bf{w}$의 불확실성으로부터 기인한 것이며, 베이지안 접근법을 통해 구해진 것입니다.
그림 1.17은 베이지안적 방법을 통해 구한 $M= 9$ 다항식 곡선 피팅 문제의 예측 분포를 나타내는 그림입니다.
$\alpha = 5 \times 10^{-3}$, $\beta = 11.1$을 사용하였습니다. 빨간색 선은 예측 분포의 평균값을, 그리고 빨간색 영역은 평균값으로부터 $\pm1$ 표준 편찻값을 가지는 부분을 표현한 것입니다. 녹색선은 해당 데이터를 만들 때 사용되었던 $sin(2\pi x)$를 나타낸 그림입니다. 파란색 동그라미인 데이터 포인트는 녹색선을 기준으로 약간의 노이즈를 포함시켜서 만들어낸 데이터라고 보시면 되겠습니다.
최대한 이해해보려고 노력하면서 읽긴 하지만, 역시나 쉽진 않은 책이라는 게 느껴집니다.
특히 조금 간단한 예시를 들었으면 좋았을 텐데... 너무 자명하다는 식으로 쓴 내용들이 많아 이해가 쉽진 않군요 ㅠㅠ
다음 장 내용도 이어서 보도록 하겠습니다.
'딥러닝 & 머신러닝 > PRML' 카테고리의 다른 글
PRML(패턴인식과 머신러닝) - Chapter 1. (3) Model Selection(모델 선택) (0) | 2021.02.28 |
---|---|
PRML(패턴인식과 머신러닝) - Chapter 1. (2) Probability Theory(확률론)(1) (0) | 2021.02.27 |
PRML(패턴인식과 머신러닝) - Chapter 1. (1) Example: Polynomial Curve Fitting (0) | 2021.02.24 |
PRML(패턴인식과 머신러닝) - Chapter 1. (0) Prologue (0) | 2021.02.24 |