Ch.11

규제 (Regularization): 암기왕의 한계 극복하기

머신러닝 모델이 문제집의 정답만 달달 외우는'암기왕' 이 되는 것을 막아주는 핵심 기술입니다. 훈련 데이터에 너무 꼭 맞추려다 보면, 조금만 다른 새로운 문제가 나와도 쩔쩔매게 되는데 이를 과적합(Overfitting) 이라고 부릅니다. 규제(Regularization) 는 모델이 '데이터의 오차'를 줄이는 동시에'너무 복잡하고 억지스러운 수식을 만들지 않도록' 페널티(벌점) 를 부여합니다. 이를 통해 잔가지는 쳐내고 진짜 중요한 패턴만 깨우친, 실전(일반화)에 강한 모델을 만들어냅니다.

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.

손실을 줄일 때 '데이터 오차'뿐 아니라 '모델이 너무 복잡해지는 것'에 페널티를 더해, 암기왕이 아니라 원리를 아는 모델을 만듭니다.

① 규제 없음 — 훈련 손실만 줄이면 훈련 데이터에 과하게 맞춤(과적합)

② 규제 도입 — 손실 = 데이터 손실 + λ \times 페널티. λ가 크면 가중치가 억제됨

\sum w_j^2

\sum |w_j|

⑤ 일반화 — 적당한 λ로 훈련\cdot검증 모두에서 잘 맞는 모델을 얻음

규제: 손실 + λ·페널티로 과적합을 막고 일반화 성능을 높입니다.

규제: 암기왕의 한계 극복하기

규제(Regularization)란? 복잡함에 가하는 '벌점' 모델이 훈련 데이터의 사소한 노이즈나 예외 상황까지 억지로 맞추려다 보면 모델의 수식이 꼬불꼬불하고 쓸데없이 복잡해집니다. 규제는 모델의 총 손실(Loss) 을 계산할 때, 단순히 '정답과 얼마나 틀렸는가(오차)'에만 신경 쓰지 않고'모델이 얼마나 복잡한가(가중치의 크기)' 를 더해 벌점을 줍니다. 벌점을 받기 싫은 모델은 자연스럽게 더 단순하고 깔끔한 형태를 유지하게 됩니다.

직관적 비유: 벼락치기 암기왕 vs 원리를 파고드는 학생 문제집(훈련 데이터)의 숫자 하나하나까지 외워버린 벼락치기 학생은 모의고사 점수는 100점이지만, 수능(새로운 데이터)에서는 참패합니다. 반면 원리를 이해한 학생은 모의고사에서 한두 개 틀릴지언정 수능에서는 흔들리지 않고 고득점을 받습니다. 규제는 모델에게'잔가지(과도한 가중치)를 쳐내고 큰 줄기(핵심 패턴)만 보라' 고 강제하여 실전 융통성을 길러주는 선생님 같은 역할을 합니다.

J = \text{MSE} + \lambda \sum_{j} w_j^2

실생활 예시: 스팸 메일 필터링과 의료 진단 스팸 메일을 걸러낼 때, 훈련 메일에 우연히 들어있던 평범한 단어('안녕하세요' 등)에 높은 가중치를 주면 정상 메일도 스팸으로 걸러내는 끔찍한 실수를 합니다. 이때 규제를 적용하면 특정 단어 하나에만 집착하는(가중치가 폭발하는) 현상을 막아줍니다. 의료 진단에서도 수많은 환자 데이터 중 '환자복 색깔' 같은 무의미한 정보에 AI가 속지 않도록 돕습니다.

J = \text{MSE} + \lambda \sum_{j} w_j^2

실전(일반화) 성능이 진정한 목표이기 때문입니다 머신러닝의 진정한 가치는 연습할 때가 아니라'처음 보는 데이터(테스트 데이터)' 를 만났을 때 빛을 발해야 합니다. 규제를 적용하면 훈련 데이터에서의 정확도는 살짝 떨어질 수 있지만, 실전에서의 정확도는 훨씬 높아집니다. 이처럼 미지의 데이터에도 잘 대응하는 능력을 일반화(Generalization) 라고 합니다.

\lambda

\lambda

기본 모델에 날개 달기 (Ridge & Lasso) 우리가 흔히 쓰는 선형 회귀 나 로지스틱 회귀 수식 끝에 방금 배운 L1, L2 벌점 수식을 슬쩍 더해주기만 하면 됩니다. - 선형 회귀 + L2 규제 = 릿지(Ridge) 회귀 - 선형 회귀 + L1 규제 = 라쏘(Lasso) 회귀 컴퓨터가 알아서 벌점이 포함된 총 손실을 줄이는 방향(경사 하강법 등)으로 학습하며 가중치를 조절해 줍니다.

\lambda

\sum_j w_j^2