머신러닝이란 무엇인가요?

머신러닝은 데이터의 패턴을 학습해 예측하는 방법입니다. https://mdooai.com/ko/learn/ml/mlSupervisedUnsupervisedSelf 에서 지도학습과 비지도학습을 먼저 학습하세요.

딥러닝과 머신러닝 차이는 무엇인가요?

딥러닝은 인공신경망을 중심으로 한 머신러닝의 하위 분야입니다. 먼저 https://mdooai.com/ko/learn/ml/mlDataFeature 와 https://mdooai.com/ko/learn/ml/mlLinearRegression에서 기초를 다진 뒤 딥러닝 코스로 확장하세요.

하이퍼파라미터 튜닝은 어떻게 시작하나요?

교차 검증으로 성능을 검증하면서 탐색 범위를 좁히는 것이 핵심입니다. https://mdooai.com/ko/learn/ml/mlCrossValidation 챕터를 먼저 학습하세요.

Ch.05

손실 함수 (MSE·크로스엔트로피·R²): 정답과 예측의 오차 재기

\hat y

챕터별 머신러닝 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.

\hat y

= \frac{1}{n}\sum_i (y_i - \hat y_i)^2

손실 함수 (MSE·크로스엔트로피·R²): 정답과 예측의 오차 재기

y

왜 중요한지

x^2

어떻게 쓰이는지

수치 예측(회귀) 모델 훈련 — 아파트 가격, 내일의 기온, 주식 가격 등 연속된 숫자 를 맞히는 문제에서 가장 기본적으로 MSE 를 씁니다. 모델 간 성능 비교 (회귀) — A 모델과 B 모델 중 누가 더 일을 잘하는지 모를 때, 두 모델의 MSE를 계산해봅니다. MSE 숫자가 더 작은 모델 이 더 우수한 모델로 선정됩니다. 딥러닝 회귀 출력층 — 인공신경망이 숫자 를 예측하는 문제를 풀 때도 출력층에서 정답과의 거리를 재기 위해 MSE를 자주 사용합니다. 분류\cdot확률 예측 — 로지스틱 회귀, 소프트맥스 분류, 신경망의 클래스 확률 을 학습할 때는 크로스엔트로피 를 최소화하는 설정이 일반적입니다.

손실 함수 (MSE·크로스엔트로피·R²): 정답과 예측의 오차 재기

회귀: MSE로 오차를 재기

모델이 얼마나 틀렸는지를 한눈에 보여 주는 성적표가 필요합니다.

- 잔차 — 실제값

y

에서 예측값

\hat y

를 뺀 값.

- SSE — 각 점의

(y-\hat y)^2

을 모두 더한 오차 제곱합(Sum of Squared Errors).

- MSE — SSE를 데이터 개수

n

으로 나눈 평균 제곱 오차.

\text{MSE} = \frac{1}{n}\sum (y - \hat y)^2 = \text{SSE}/n

— 값이 작을수록 모델이 데이터에 잘 맞습니다.

왜 그냥 더하지 않고 제곱할까요?

- 오차

+5

와

-5

는 방향만 다를 뿐 같은 크기의 틀림입니다. 그냥 더하면

0

으로 상쇄될 수 있습니다.

- 제곱하면 항상 양수가 되어 크기만 비교할 수 있습니다.

- 큰 오차에는 더 큰 벌점(페널티)가 가해져, 모델이 큰 실수를 피하도록 유도합니다.

선형 회귀의 목표

직선

\hat y = wx + b

가 데이터를 잘 대변한다는 것은, SSE를

n

으로 나눈 MSE가 최소가 되도록 기울기

w

와 절편

b

를 고른다는 뜻입니다.

경사 하강법은 이 MSE를 줄이는 방향으로

w

b

를 조금씩 업데이트합니다.

회귀: MSE는 잔차의 제곱 평균

MSE는 잔차(오차)

y_i-\hat y_i

를 제곱해 평균으로 만든 오차 점수입니다. 예측이 실제에 가까울수록 잔차가 줄어 MSE도 작아집니다.

MSE 수식을 풀어 읽기

\text{MSE} = \frac{1}{n}\sum_i (y_i - \hat y_i)^2

- $i$ — 데이터 번호(몇 번째 점인지).

- $y_i$ — 그 점의 실제값.

- $\hat y_i$ — 그 점의 예측값.

- $y_i - \hat y_i$ — 잔차.

- $(y_i - \hat y_i)^2$ — 그 점의 제곱 오차.

- $\sum_i$ — 모든 점을 더하면 SSE.

- $\frac{1}{n}$ — 평균을 내어 MSE.

예측이 실제에 가까울수록 잔차와 MSE가 작아집니다.

분류: 크로스엔트로피

크로스엔트로피는 분류에서 "정답 클래스일 확률"을 기준으로 손실을 매기는 방법입니다.

이진 분류는 아래 이진 크로스엔트로피 수식을 풀어 읽기에서

\ell

을 구성 요소별로 해석합니다.

이진 크로스엔트로피 수식을 풀어 읽기

\ell = -\big(y\log\hat p + (1-y)\log(1-\hat p)\big)

- $y \in \lbrace 0,1 \rbrace$ — 정답 라벨.

- $\hat p$ — 클래스 1일 확률(0~1).

- $\log$ — 보통 자연로그.

$y=1$ 일 때 —

(1-y)\log(1-\hat p)=0

이므로

\ell = -\log\hat p

만 남습니다.

\hat p

가 1에 가까울수록 손실이 작습니다.

$y=0$ 일 때 —

y\log\hat p=0

이므로

\ell = -\log(1-\hat p)

1-\hat p

는 클래스 0일 확률에 해당합니다.

y\log\hat p

와

(1-y)\log(1-\hat p)

중 항상 한쪽만 살아 있어, 정답 쪽 확률을 키우도록 유도합니다.

다중 클래스 — 정답 클래스

k

에 대해 보통

\ell = -\log \hat p_k

(일반적으로 소프트맥스 확률을 사용). 정답 클래스의 예측 확률

\hat p_k

가 낮을수록 손실이 커지고, 학습은 그 확률을 높이는 방향으로 가중치를 움직입니다.

$R^2$ (결정계수): '평균으로 찍기' 대비 얼마나 나아졌나

회귀에서는 MSE/RMSE로 오차의 크기를 보지만, 이보다 한 단계 더 나아가 "내 모델이 기준선(평균 예측)보다 얼마나 더 잘 설명했는가"를 보고 싶을 때 $R^2$ 를 함께 봅니다.

R^2 = 1 - \frac{\sum_i (y_i-\hat y_i)^2}{\sum_i (y_i-\bar y)^2} = 1 - \frac{\text{SSE}}{\text{SST}}

기호부터 정리

y_i

i

번째 데이터의 실제값

\hat y_i

i

번째 데이터의 예측값

\bar y

: 전체

y_i

의 평균

- SSE =

\sum_i (y_i-\hat y_i)^2

: 모델이 낸 오차 제곱합(작을수록 좋음)

- SST =

\sum_i (y_i-\bar y)^2

: "평균

\bar y

만 찍는다"고 가정했을 때의 오차 제곱합(기준선)

계산 순서(초간단)

1. 먼저

\bar y

를 구합니다(실제값 평균).

2. 기준선 오차인 SST =

\sum_i (y_i-\bar y)^2

를 계산합니다.

3. 모델 오차인 SSE =

\sum_i (y_i-\hat y_i)^2

를 계산합니다.

R^2 = 1 - \text{SSE}/\text{SST}

입니다.

해석 가이드(가장 중요)

R^2 = 1

이면: SSE=0 → 예측이 실제와 거의 완벽하게 일치

R^2 = 0

이면: SSE=SST → 평균만 찍는 수준과 비슷

R^2 < 0

이면: SSE>SST → 평균만 찍는 기준선보다 더 못함

즉,

R^2

는 "오차 제곱합을 기준선 대비 얼마나 줄였는지"를 비율로 보여주는 지표입니다.

짧은 숫자 예시

실제값이

y=[3,5,7]

이고 평균

\bar y=5

라고 해봅시다.

- 기준선(평균만 찍기): 오차 제곱합

\text{SST}=(3-5)^2+(5-5)^2+(7-5)^2=4+0+4=8

- 모델 예측이

\hat y=[4,5,6]

일 때:

\text{SSE}=(3-4)^2+(5-5)^2+(7-6)^2=1+0+1=2

따라서

R^2 = 1 - 2/8 = 0.75

→ 모델이 평균 예측보다 오차를 제법 줄여서 분산(변동)을 75% 정도 설명한 셈으로 해석할 수 있습니다.

주의: $R^2$ 를 혼자만 믿지 않기

R^2

는 "비율"이라서, 데이터가 다르면 숫자를 그대로 비교하기가 애매할 수 있습니다.

- 실무에서는 보통 RMSE + $R^2$ (오차 크기 + 설명력)를 함께 보면서 모델을 판단합니다.