Chapter 08

편미분과 그라디언트

변수가 여러 개일 때 한 변수만 움직이며 미분하는 편미분, 그걸 모은 그라디언트 를 배워요. 경사하강법의 기초예요.

챕터별 수학 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.

x만 움직일 때의 기울기, y만 움직일 때의 기울기가 편미분이에요. 두 편미분을 합친 방향이 그라디언트예요.

가로 화살표 = x만 바꿀 때 기울기, 세로 = y만 바꿀 때 기울기. 대각선이 둘을 합친 그라디언트 — 값이 가장 빨리 커지는 방향이에요.

가로 화살표: $y$ 를 고정하고 $x$ 만 움직일 때의 기울기 → 편미분 $\frac{\partial f}{\partial x}$
세로 화살표: $x$ 를 고정하고 $y$ 만 움직일 때의 기울기 → 편미분 $\frac{\partial f}{\partial y}$
대각선 화살표: 두 편미분을 합친 방향 → 그라디언트 $\nabla f$ (값이 가장 빨리 커지는 쪽)

편미분과 그라디언트란

변수가 두 개 이상인 함수에서 한 변수만 바꾸고 나머지는 상수로 두고 미분하는 것이 편미분이에요. 그라디언트는 편미분들을 벡터로 모은 것이에요. 핵심 수식은 하나예요:

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

쉽게 말하면 편미분은 한 칸만 움직였을 때 기울기를 보는 거예요.

x

만 1만큼 키우고

y

는 그대로 두면

f

가 얼마나 변하나? → 그게

x

에 대한 편미분이에요. 그라디언트는 ‘

x

방향 기울기’와 ‘

y

방향 기울기’를 화살표 두 개로 모은 거예요. 그 화살표가 가리키는 쪽이 값이 가장 빨리 커지는 방향이에요.

예:

f(x,y)=x^2+y^2

일 때

x

로만 미분하면

y

를 상수로 보므로

2x

가 되고,

y

로만 미분하면

2y

예요. 그래서

\nabla f = (2x, 2y)

(1,1)

에서는

\nabla f = (2, 2)

라서, 이 점에서 (2,2) 방향으로 갈수록 값이 빨리 커져요.

그라디언트는 ‘함수값이 가장 빨리 커지는 방향’을 가리켜요. 반대 방향으로 가면 가장 빨리 줄어들어요. 그래서 경사하강법에서는 그라디언트 반대 방향으로 파라미터를 업데이트해요.

숫자로 보는 쉬운 예:

f(x,y)=x+2y

라 하면

x

만 보면 기울기

1

y

만 보면 기울기

2

예요. 그래서

\nabla f = (1, 2)

. 즉 ‘

x

를 1만큼 키우면

f

가 1만큼,

y

를 1만큼 키우면

f

가 2만큼 커진다’는 뜻이에요. 산에서 비유하면

x

방향으로 한 걸음 가면 1m 오르고,

y

방향으로 한 걸음 가면 2m 오르는 셈이에요. 그라디언트 (1,2) 방향이 가장 가파르게 오르는 방향이에요.

딥러닝에서는 손실이 수많은 가중치의 함수예요. 학습은 ‘각 가중치를 조금 바꿀 때 손실이 얼마나 변하는지’를 구해, 손실이 줄어드는 방향으로 가중치를 업데이트하는 과정이에요.

그라디언트가 바로 ‘각 가중치에 대한 편미분을 모은 벡터’예요. 가중치가 수천·수만 개라서 한 번에 한 변수만 바꿀 때의 영향을 보는 편미분이 필요하고, 역전파(Ch07 연쇄법칙)는 이 그라디언트를 효율적으로 한 번에 계산하는 방법이에요. Ch06·Ch07을 거쳐 여기서 다변수로 확장하면 경사하강법과 SGD를 이해할 수 있어요.

편미분·그라디언트는 다변수 최적화의 기본 언어예요. 손실을 각 가중치로 미분한 값이 그라디언트 성분이고, '새 파라미터 = 이전 − 학습률 × 그라디언트'처럼 한 스텝씩 갱신하는 것이 딥러닝 학습이에요. 이걸 마치면 Ch09 적분으로 이어갈 수 있어요.

입력이 여러 개인 함수에서 '한 변수만 바꿀 때의 변화율'을 볼 때 편미분을 써요. 경사하강법은 그라디언트 반대 방향으로 조금 움직여 손실을 줄이는 방법이에요. 경제학(수요가 가격·소득에 동시에 의존할 때), 물리(압력·온도·부피가 서로 영향을 줄 때)처럼 변수가 여러 개인 곳에서도 편미분으로 '한 요인만 바꿀 때의 영향'을 잡아요.

상황	쓰는 것
손실을 줄일 때	'이 가중치를 조금 키우면 손실이 올라가나 내려가나?'가 그 가중치에 대한 편미분이에요. 그런 값들을 모은 벡터가 그라디언트예요.
경사하강 한 스텝	새 파라미터 = 이전 − (학습률 × 그라디언트). 손실이 줄어드는 쪽(그라디언트 반대 방향)으로 한 칸 움직이는 거예요.
데이터를 조금씩만 써서 학습할 때	데이터 전체를 한 번에 쓰지 않고, 작은 묶음(미니배치)만 보고 그라디언트를 구한 뒤 파라미터를 한 번 업데이트해요. 이렇게 반복하면 더 빠르게 학습할 수 있어요. (이 방식을 SGD라고 부르기도 해요.)
결과가 x, y 둘 다에 달려 있을 때	'x만 살짝 키우면 얼마나 변하지?'를 보는 게 $x$ 에 대한 편미분이에요. $y$ 만 키울 때는 $y$ 에 대한 편미분으로 같은 방식으로 보면 돼요.

AI 학습에서는 PyTorch·TensorFlow가 역전파로 그라디언트를 자동 계산해요. ‘편미분을 모은 벡터 = 그라디언트’, ‘경사하강 = 그라디언트 반대 방향’만 이해하면 돼요. 이미지 분류(사진에서 물체 인식), 언어 모델(챗GPT처럼 문장 예측), 추천(넷플릭스·유튜브), 번역, 음성 인식 등 모든 지도 학습이 이 구조 위에 있어요. 가중치가 수만 개여도 각 가중치에 대한 편미분을 한 번에 구해 그라디언트를 만들고, 그 반대 방향으로 한 스텝씩 업데이트하는 게 학습이에요.

편미분할 때는 미분하는 변수만 변수로 보고 나머지는 상수로 두면 돼요. 그라디언트는 편미분을 순서대로 벡터로 모은 거예요. 팁:

\frac{\partial f}{\partial x}

는

y

를 숫자처럼 보고

x

만 미분해요.

가장 쉬운 예:

f=3x+2y

x

로만 미분할 때

y

는 그냥 숫자로 보면 돼요 →

\partial f/\partial x = 3

y

로만 미분할 때

x

는 숫자 →

\partial f/\partial y = 2

. 그래서

\nabla f = (3, 2)

. 점

(1,1)

에서의 그라디언트도

(3,2)

예요.

쉬운 예부터 표로 정리했어요. 한 변수만 보면 Ch06 도함수와 같은 공식이에요.

문제	풀이
$f=3x+2y$ , $\partial f/\partial x$	$y$ 상수 → 3
$f=3x+2y$ , $\partial f/\partial y$	$x$ 상수 → 2
$f=x^2 y$ , $\partial f/\partial x$	$y$ 상수 → $2xy$
$f=x^2+y^2$ , $\nabla f$	$(2x, 2y)$