Ch.03
손실 함수 (MSE): 정답과 예측의 오차 재기
양궁 선수가 화살을 쏠 때, 과녁 정중앙(정답)에서 벗어난 거리를 측정하여 실력을 평가하는 것과 같습니다. 머신러닝에서는 이 '벗어난 정도'를 숫자로 잽습니다. 각 점에서 예측값 와 실제값 의 차이(오차)를 제곱해 더한 오차 제곱합(SSE, Sum of Squared Errors)을 데이터 개수로 나누면 평균 제곱 오차(MSE, Mean Squared Error)가 됩니다. 이 MSE가 0에 가까울수록 모델이 정답을 잘 맞히고 있다는 뜻입니다.
챕터별 머신러닝 도식화
챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.
예측값 와 실제값 의 오차를 제곱해 평균 낸 것이 MSE입니다.
MSE — 손실이 작을수록 직선이 데이터에 잘 맞습니다.
손실 함수 (MSE): 정답과 예측의 오차 재기
오차들의 평균 점수 — 모델이 얼마나 틀렸는지를 보여주는 성적표가 필요합니다. 실제값 에서 예측값 를 뺀 것을 오차(잔차)라고 합니다. 이 오차를 각각 제곱한 값 을 모든 데이터에서 더하면 오차 제곱합 SSE(Sum of Squared Errors)가 됩니다. SSE를 데이터 개수 으로 나눈 것이 평균 제곱 오차 MSE(Mean Squared Error)입니다. 즉 이고, 이 값이 작을수록 모델이 잘 맞추고 있다는 뜻입니다.
왜 그냥 더하지 않고 제곱할까요? — 오차가 인 것과 인 것은 방향만 다를 뿐 '5만큼 틀렸다'는 사실은 같습니다. 그냥 더하면 이 되어버릴 수 있으니, 제곱을 해서 무조건 양수로 만듭니다. 또한, 제곱을 하면 큰 실수(큰 오차)에 더 큰 벌점(페널티)을 주어 모델이 큰 실수를 하지 않도록 엄격하게 가르칠 수 있습니다.
선형 회귀의 목표 — 앞서 배운 선형 회귀 직선 가 데이터를 가장 잘 대변한다는 것은, 각 점에서의 오차 제곱합 SSE를 데이터 개수로 나눈 MSE가 최소가 되도록 기울기 와 절편 를 맞췄다는 뜻입니다. 경사 하강법은 바로 이 MSE를 줄이는 방향으로 , 를 업데이트합니다.
학습의 나침반 — 머신러닝 모델은 학습할 때 '어디로 가야 할지'를 모릅니다. 이때 MSE가 '이 값이 작아지는 쪽으로 가라'고 방향을 알려줍니다. MSE가 줄어드는 방향이 곧 모델이 똑똑해지는 방향입니다.
미분하기 좋은 부드러운 곡선 — 제곱 함수()는 그래프로 그리면 밥그릇처럼 매끄러운 곡선 모양이 됩니다. 뾰족한 부분이 없어서 미분(기울기 계산)이 아주 쉽습니다. 덕분에 경사 하강법을 적용하여 최저점(오차가 가장 적은 곳)을 찾기에 수학적으로 가장 유리합니다.
RMSE로 단위 되찾기 — MSE는 오차를 제곱해서 평균을 내기 때문에 단위가 '의 제곱'이 됩니다(예: 가격 예측인데 단위가 '원²'). 실무에서는 "평균적으로 몇 원, 몇 도 틀리나요?"처럼 원래 단위로 말하고 싶을 때가 많습니다. 이때 MSE에 루트()를 씌운 RMSE(Root Mean Squared Error, 제곱근 평균 제곱 오차)를 씁니다. RMSE 이므로, MSE를 이해하면 RMSE도 자연스럽게 이해할 수 있습니다.
수치 예측(회귀) 모델 훈련 — 아파트 가격, 내일의 기온, 주식 가격 등 연속된 숫자를 맞히는 문제에서 가장 기본적으로 사용되는 손실 함수입니다.
모델 간 성능 비교 — A 모델과 B 모델 중 누가 더 일을 잘하는지 모를 때, 두 모델의 MSE를 계산해봅니다. MSE 숫자가 더 작은 모델이 더 우수한 모델로 선정됩니다.
딥러닝의 학습 재료 — 단순한 머신러닝뿐만 아니라, 복잡한 인공신경망(딥러닝)이 숫자를 예측하는 문제를 풀 때도 출력층에서 정답과의 거리를 재기 위해 MSE를 주로 사용합니다.
손실 함수(MSE) 정리
① 개념의 흐름 — 실제값 와 예측값 의 차이를 잔차(오차) 라고 합니다. 각 점에서 잔차를 제곱한 을 모두 더하면 오차 제곱합(SSE) 가 되고, 이를 데이터 개수 으로 나누면 평균 제곱 오차(MSE) 입니다. 단위를 와 맞추고 싶을 때는 RMSE 를 사용합니다.
② 왜 제곱할까? — 오차가 이든 이든 "3만큼 틀렸다"는 사실은 같습니다. 그냥 더하면 서로 상쇄되어 의미가 없으므로 제곱으로 양수화하고, 동시에 큰 오차에는 더 큰 페널티를 주어 모델이 심한 실수를 줄이도록 유도합니다.
③ 학습에서의 역할 — MSE는 "이 값이 작아지는 쪽으로 가라"는 나침반입니다. 경사 하강법은 MSE를 줄이는 방향으로 , 를 업데이트합니다. 제곱 함수는 미분이 쉬운 매끄러운 곡선이라 최저점을 찾기에 수학적으로 유리합니다.
④ 쓰임 — 회귀(가격·기온·주가 예측 등) 훈련, 모델 간 성능 비교(MSE가 작을수록 우수), 딥러닝 출력층 손실로 널리 쓰입니다. 풀이 순서와 숫자 예시는 아래 문제 풀이를 위한 설명 블록에서 확인하세요.