Chapter 08
편미분과 그라디언트
변수가 여러 개일 때 한 변수만 움직이며 미분하는 편미분, 그걸 모은 그라디언트를 배워요. 경사하강법의 기초예요.
챕터별 수학 도식화
챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.
x만 움직일 때의 기울기, y만 움직일 때의 기울기가 편미분이에요. 두 편미분을 합친 방향이 그라디언트예요.
가로 화살표 = x만 바꿀 때 기울기, 세로 = y만 바꿀 때 기울기. 대각선이 둘을 합친 그라디언트 — 값이 가장 빨리 커지는 방향이에요.
- 가로 화살표: 를 고정하고 만 움직일 때의 기울기 → 편미분
- 세로 화살표: 를 고정하고 만 움직일 때의 기울기 → 편미분
- 대각선 화살표: 두 편미분을 합친 방향 → 그라디언트 (값이 가장 빨리 커지는 쪽)
편미분과 그라디언트란
변수가 두 개 이상인 함수에서 한 변수만 바꾸고 나머지는 상수로 두고 미분하는 것이 편미분이에요. 그라디언트는 편미분들을 벡터로 모은 것이에요. 핵심 수식은 하나예요: .
쉽게 말하면 편미분은 한 칸만 움직였을 때 기울기를 보는 거예요. 만 1만큼 키우고 는 그대로 두면 가 얼마나 변하나? → 그게 에 대한 편미분이에요. 그라디언트는 ‘ 방향 기울기’와 ‘ 방향 기울기’를 화살표 두 개로 모은 거예요. 그 화살표가 가리키는 쪽이 값이 가장 빨리 커지는 방향이에요.
예: 일 때 로만 미분하면 를 상수로 보므로 가 되고, 로만 미분하면 예요. 그래서 . 에서는 라서, 이 점에서 (2,2) 방향으로 갈수록 값이 빨리 커져요.
그라디언트는 ‘함수값이 가장 빨리 커지는 방향’을 가리켜요. 반대 방향으로 가면 가장 빨리 줄어들어요. 그래서 경사하강법에서는 그라디언트 반대 방향으로 파라미터를 업데이트해요.
숫자로 보는 쉬운 예: 라 하면 만 보면 기울기 , 만 보면 기울기 예요. 그래서 . 즉 ‘를 1만큼 키우면 가 1만큼, 를 1만큼 키우면 가 2만큼 커진다’는 뜻이에요. 산에서 비유하면 방향으로 한 걸음 가면 1m 오르고, 방향으로 한 걸음 가면 2m 오르는 셈이에요. 그라디언트 (1,2) 방향이 가장 가파르게 오르는 방향이에요.
딥러닝에서는 손실이 수많은 가중치의 함수예요. 학습은 ‘각 가중치를 조금 바꿀 때 손실이 얼마나 변하는지’를 구해, 손실이 줄어드는 방향으로 가중치를 업데이트하는 과정이에요.
그라디언트가 바로 ‘각 가중치에 대한 편미분을 모은 벡터’예요. 가중치가 수천·수만 개라서 한 번에 한 변수만 바꿀 때의 영향을 보는 편미분이 필요하고, 역전파(Ch07 연쇄법칙)는 이 그라디언트를 효율적으로 한 번에 계산하는 방법이에요. Ch06·Ch07을 거쳐 여기서 다변수로 확장하면 경사하강법과 SGD를 이해할 수 있어요.
편미분·그라디언트는 다변수 최적화의 기본 언어예요. 손실을 각 가중치로 미분한 값이 그라디언트 성분이고, '새 파라미터 = 이전 − 학습률 × 그라디언트'처럼 한 스텝씩 갱신하는 것이 딥러닝 학습이에요. 이걸 마치면 Ch09 적분으로 이어갈 수 있어요.
입력이 여러 개인 함수에서 '한 변수만 바꿀 때의 변화율'을 볼 때 편미분을 써요. 경사하강법은 그라디언트 반대 방향으로 조금 움직여 손실을 줄이는 방법이에요. 경제학(수요가 가격·소득에 동시에 의존할 때), 물리(압력·온도·부피가 서로 영향을 줄 때)처럼 변수가 여러 개인 곳에서도 편미분으로 '한 요인만 바꿀 때의 영향'을 잡아요.
| 상황 | 쓰는 것 |
|---|---|
| 손실을 줄일 때 | '이 가중치를 조금 키우면 손실이 올라가나 내려가나?'가 그 가중치에 대한 편미분이에요. 그런 값들을 모은 벡터가 그라디언트예요. |
| 경사하강 한 스텝 | 새 파라미터 = 이전 − (학습률 × 그라디언트). 손실이 줄어드는 쪽(그라디언트 반대 방향)으로 한 칸 움직이는 거예요. |
| 데이터를 조금씩만 써서 학습할 때 | 데이터 전체를 한 번에 쓰지 않고, 작은 묶음(미니배치)만 보고 그라디언트를 구한 뒤 파라미터를 한 번 업데이트해요. 이렇게 반복하면 더 빠르게 학습할 수 있어요. (이 방식을 SGD라고 부르기도 해요.) |
| 결과가 x, y 둘 다에 달려 있을 때 | 'x만 살짝 키우면 얼마나 변하지?'를 보는 게 에 대한 편미분이에요. 만 키울 때는 에 대한 편미분으로 같은 방식으로 보면 돼요. |
AI 학습에서는 PyTorch·TensorFlow가 역전파로 그라디언트를 자동 계산해요. ‘편미분을 모은 벡터 = 그라디언트’, ‘경사하강 = 그라디언트 반대 방향’만 이해하면 돼요. 이미지 분류(사진에서 물체 인식), 언어 모델(챗GPT처럼 문장 예측), 추천(넷플릭스·유튜브), 번역, 음성 인식 등 모든 지도 학습이 이 구조 위에 있어요. 가중치가 수만 개여도 각 가중치에 대한 편미분을 한 번에 구해 그라디언트를 만들고, 그 반대 방향으로 한 스텝씩 업데이트하는 게 학습이에요.
편미분할 때는 미분하는 변수만 변수로 보고 나머지는 상수로 두면 돼요. 그라디언트는 편미분을 순서대로 벡터로 모은 거예요. 팁: 는 를 숫자처럼 보고 만 미분해요.
가장 쉬운 예: . 로만 미분할 때 는 그냥 숫자로 보면 돼요 → . 로만 미분할 때 는 숫자 → . 그래서 . 점 에서의 그라디언트도 예요.
쉬운 예부터 표로 정리했어요. 한 변수만 보면 Ch06 도함수와 같은 공식이에요.
| 문제 | 풀이 |
|---|---|
| , | 상수 → 3 |
| , | 상수 → 2 |
| , | 상수 → |
| , |