앞에서 다룬 다항식 곡선 피팅 예시에서 가장 좋은 일반화 능력을 가지는 최적의 다항식 차수가 있다는 것을 확인할 수 있었습니다.
다항식의 차수에 따라서 모델의 자유 매개변수의 수가 결정되며, 이에 의해서 모델의 복잡도가 결정되게 됩니다.
또한, 정규화된 최소 제곱법의 경우에는 정규화 계수 $\lambda$도 모델의 실제적인 복잡도에 영향을 미쳤습니다.
혼합 분포나 신경망 등의 더 복잡한 모델의 경우 복잡도를 통제하는 매개변수가 더 많을 수도 있습니다.
실제 응용 사례에서는 이러한 매개변수들의 값을 결정해야하며, 이때의 목표는 새로운 데이터에 대한 예측 성능을 최적화하는 것입니다.
주어진 한 모델의 매개변수의 값을 결정하는 것뿐만이 아니라 다양한 여러 모델들을 고려하여 해당 응용 사례에 가장 적합한 모델을 선택해야 할 경우도 있습니다.
최대 가능도 접근법에서 이미 확인한 것과 같이, 훈련 집합에서의 좋은 성능이 반드시 좋은 예측 성능을 보장해 주지는 못합니다. 이는 과적합 문제 때문입니다. 이를 해결할 한 가지 방법은 데이터가 충분할 경우 일부의 데이터만 사용하여 다양한 모델과 모델의 매개변수들을 훈련시키고 독립적인 데이터 집합인 검증 집합(Validation set)에서 이 모델들과 매개변수들을 비교 / 선택하는 것입니다.
만약 한정된 크기의 데이터 집합을 바탕으로 반복적으로 모델 디자인을 시행한다면, 검증 집합에 대해서도 과적합 문제가 발생할 수 있습니다. 이런 상황을 방지하기 위해 시험 집합(Test set)을 따로 분리해 두고 이 집합을 통해서 선택된 모델의 최종 성능을 판단하는 것이 좋을 수도 있습니다.
하지만 대부분의 실제 경우에는 데이터의 공급이 제한적이므로, 시험 집합을 별도로 분리해서 사용하는 것이 부담스러울 수 있습니다.
그리고 검증 집합의 크기가 작을 경우는 예측 성능에 대한 추정값이 정확하지 않을 수도 있습니다.
이러한 딜레마를 해결할 수 있는 한 가지 방법은 바로 교차 검증법(Cross validation)입니다.
그림 1.18은 교차 검증법을 설명하는 그림입니다.
교차 검증법은 전체 데이터(S) 중 데이터의 (S-1) / S비율만큼 훈련에 사용하고, 모든 데이터를 다 활용하여 성능을 추정할 수 있습니다.
특히 데이터가 부족할 경우에는 S = N의 교차 검증법을 고려할 수도 있습니다. 여기서 N은 전체 데이터 포인트의 숫자입니다.
따라서, S = N 교차 검증법은 데이터 포인트 하나만 남겨두고(leave-one-out) 모델을 훈련시키는 테크닉입니다.
그림에서 빨간색 블록으로 표시되어 있는 것이 남겨 두는 집합이 되며, 이를 이용해서 검증을 진행합니다.
그리고 최종 성능 점수를 도출할 때는 S번의 실행에서의 성능 점수를 평균 내어서 도출하게 됩니다.
교차 검증법의 주요 단점 중 하나는 S의 수가 늘어남에 따라서 모델 훈련의 시행 횟수가 함께 늘어난다는 점입니다. 이는 훈련 자체가 계산적으로 복잡할 경우에 문제가 될 수 있습니다.
분리된 데이터를 활용하여 성능을 측정하는 교차 검증법의 또 다른 문제점은, 한 가지 모델에 여러 가지 복잡도 매개변수가 있을 경우(예를 들면 여러 종류의 정규화 매개변수)에 발생합니다. 여러 매개변수들의 조합들을 확인해 보기 위해서는 최악의 경우 매개변수 숫자에 대해 기하급수적인 수의 훈련 실행이 필요할 수 있습니다.
따라서 이를 통해, 이보다 더 나은 방식이 필요하다는 것을 알 수 있습니다. 이상적인 방식에서는 훈련 집합만을 활용하여 여러 종류의 hyperparameter와 각 모델 종류에 대한 비교를 한 번의 훈련 과정동안 시행할 수 있어야 합니다.
이를 위해서는 오직 훈련 집합만을 활용하는 성능 척도가 필요합니다. 또한, 이 척도는 과적합으로 인한 편향으로부터 자유로워야 합니다.
역사적으로 다양한 '정보 기준(information criteria)'들이 최대 가능도 방법의 편향 문제에 대한 대안으로 제시되어 왔으며, 이는 더 복잡한 모델에서 과적합이 일어나지 않도록 하는 페널티항을 추가하는 방식이였습니다.
예를 들어, 아카이케 정보량 기준(akaike information criterion, AIC)는 다음의 식 1.73의 값이 가장 큰 모델을 선택하는 방식입니다.
여기서 $p(D|\bf{w_{ML}}$$)$은 가장 잘 피팅된 로그 가능도이며, $M$은 모델의 수정 가능한 매개변수의 수 입니다.
베이지안 정보 기준(Bayeseian information criterion, BIC)은 AIC의 약간 변형된 버전인데 이에 대해서는 4.4.1절에서 논의할 예정입니다.
이러한 기준들은 모델 매개변수들의 불확실성을 고려하지 않으며, 또한 실제 적용에서 간단한 모델을 선택하는 경향이 있습니다.
'딥러닝 & 머신러닝 > PRML' 카테고리의 다른 글
PRML(패턴인식과 머신러닝) - Chapter 1. (2) Probability Theory(확률론)(2) (0) | 2021.02.28 |
---|---|
PRML(패턴인식과 머신러닝) - Chapter 1. (2) Probability Theory(확률론)(1) (0) | 2021.02.27 |
PRML(패턴인식과 머신러닝) - Chapter 1. (1) Example: Polynomial Curve Fitting (0) | 2021.02.24 |
PRML(패턴인식과 머신러닝) - Chapter 1. (0) Prologue (0) | 2021.02.24 |