Chapter 07
연쇄 법칙
함수를 겹쳐 쓴 걸 미분할 때는 밖의 미분 × 안의 미분으로 곱하면 됩니다. 역전파의 핵심이에요.
챕터별 수학 도식화
챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.
겹친 함수는 → 안쪽 → 밖쪽 → 처럼 연쇄로 이어져 있어요. 밖의 미분 × 안의 미분을 곱하면 전체 미분이에요.
예시로 보는 계산 순서 (한 번에 하나씩 강조)
1.예: 위 그래프처럼 , 일 때 를 로 미분하자.
2.① 안의 미분 (왼쪽 그래프): 을 로 미분 →
3.② 밖의 미분 (오른쪽 그래프): 를 로 미분 →
4.③ 곱하기: → 답
점이 연쇄를 따라 움직이듯, 변화율이 곱해지면서 전달돼요. 역전파도 이 곱하기가 반복되는 구조예요.
연쇄 법칙이란
한마디로 함수를 겹쳐 놓은 것이 합성함수예요. 를 먼저 한 함수에 넣고, 나온 값을 다시 다른 함수에 넣어서 최종 결과를 만드는 거예요. 이렇게 겹친 함수를 미분할 때 쓰는 규칙이 연쇄 법칙이에요. 예를 들어 는 ‘을 구한 뒤 그걸 제곱한다’는 두 단계가 이어져 있어요. 이런 걸 한 번에 에 대해 미분하려면 연쇄 법칙이 필요해요.
쉽게 말하면 ‘겹친 함수’는 두 번 거쳐서 결과가 나오는 거예요. → (첫 번째 계산) → (두 번째 계산) → . 연쇄 법칙은 첫 번째에서의 기울기 × 두 번째에서의 기울기를 곱하면 전체 기울기가 나온다는 규칙이에요.
한 줄 요약: 겹친 함수를 로 미분할 때는 밖의 미분과 안의 미분을 곱하면 돼요. 계산 과정은 아래 표를 보세요.
| 단계 | 할 일 | 예: |
|---|---|---|
| 1 | 안쪽과 밖쪽 구분 | 안쪽 , 밖쪽 제곱 |
| 2 | 안의 미분 — 안쪽을 로 미분 | |
| 3 | 밖의 미분 — 밖쪽을 미분 (안쪽 전체를 한 덩어리로) | → |
| 4 | 두 값을 곱하기 | → 답 |
대표 수식: 또는 . 위 비주얼처럼 → 안쪽 → 밖쪽 → 순서로 이어지므로 각 구간의 미분을 곱하면 돼요. 안쪽이 또 겹쳐 있으면 그 부분에서도 같은 방식으로 밖의 미분 × 안의 미분을 반복해서 곱하면 돼요.
직관적으로 를 조금 바꿀 때, 안쪽이 바뀌는 비율과 밖쪽이 바뀌는 비율을 곱하면 최종값 가 바뀌는 비율이 나와요. 위 비주얼에서 점이 한 그래프에서 다음 그래프로 넘어가듯, 이 두 비율이 곱해져서 전달되는 거예요. 일상 비유: 거리 → 시간에 대한 변화율(속도)과, 시간 → 연료에 대한 변화율을 곱하면 ‘거리가 조금 바뀔 때 연료가 얼마나 바뀌는지’를 한 번에 구할 수 있어요.
숫자로 보는 쉬운 예: 에서 이면 안쪽 , 밖쪽 예요. 를 1에서 1.1로 조금 키우면 안쪽은 3→3.2, 밖쪽은 9→10.24로 변해요. 연쇄 법칙으로 구한 기울기 에 을 넣으면 인데, 이게 바로 ‘를 조금 키울 때 가 얼마나 빨리 변하는가’의 비율이에요. 한 줄: 안의 미분 와 밖의 미분 을 곱하면 이 나와요.
딥러닝에서는 층이 여러 개 이어져 있어요. 입력이 1층을 지나고, 2층을 지나고, … 마지막에 손실이 나와요. 이 손실은 겹친 함수의 최종 결과와 같아요. 학습을 하려면 ‘각 가중치를 조금 바꿀 때 손실이 얼마나 변하는지’를 알아야 하니까, 이 손실을 각 가중치로 미분해야 해요.
역전파는 손실에서 입력 쪽으로 한 단계씩 미분을 넘기는 방법이에요. 매 단계마다 ‘다음 단계에서 넘어온 값’에 ‘이 단계에서의 미분’을 곱해서 앞으로 보내요. 이 곱하기가 바로 연쇄 법칙이에요. 층이 10개면 이 곱하기가 10번 반복되는 거예요.
정리하면 연쇄 법칙은 역전파의 뼈대예요. Ch06 도함수를 알았다면, 여기서는 ‘겹친 함수’에 그걸 적용하는 것만 익히면 돼요. 연쇄 법칙만 잘 쓰면 역전파 코드의 핵심 흐름을 이해할 수 있어요.
일반적으로 한 걸 바꾸면 다른 게 연쇄적으로 바뀌는 상황에서 총 변화율을 구할 때 써요. 연쇄적으로 연결된 변화율은 전부 곱하면 돼요. 아래 표는 여러 분야에서 같은 방식이 쓰이는 예예요.
| 상황 | 구하는 것 | 연쇄 법칙 (총 변화율) |
|---|---|---|
| 비용이 생산량에, 생산량이 시간에 달려 있을 때 | 비용이 시간에 얼마나 빨리 변하는지 | (비용/생산량) (생산량/시간) |
| 풍선 반지름이 시간에 따라 변할 때 | 부피가 시간에 얼마나 빨리 변하는지 | (부피/반지름) (반지름/시간) |
| 속도가 위치에, 위치가 시간에 달려 있을 때 | 가속도와의 연결 | (속도/위치) (위치/시간) |
AI 학습에서는 손실이 여러 층을 거쳐 나오므로, 각 가중치로 미분할 때 연쇄 법칙으로 한 층씩 곱해 나가요. ChatGPT처럼 대규모 언어 모델이 학습할 때는 수십~수백 개의 층을 거쳐 ‘입력 문장 → 예측 단어’가 나오고, 그 예측과 정답의 차이(손실)를 각 층의 가중치로 미분해 ‘어느 가중치를 얼마나 바꿀지’를 구해요. 이때 손실에서 입력 쪽으로 한 단계씩 연쇄 법칙으로 곱해 가는 것이 역전파예요. 이미지 인식(사진에서 물체 찾기), 추천(넷플릭스·유튜브), 번역기, 음성 인식도 같은 원리로, 손실을 각 가중치에 전달할 때 연쇄 법칙이 반복돼요. PyTorch·TensorFlow 같은 라이브러리는 이 곱하기를 자동으로 쌓아서 역전파를 계산해요. 이걸 마치면 Ch08 편미분·그라디언트로 자연스럽게 이어갈 수 있어요.
겹친 함수를 미분할 때는 안쪽을 한 덩어리로 보고 밖을 미분한 것과 안을 미분한 것을 곱하면 돼요. 안쪽이 또 겹쳐 있으면 그 부분에도 같은 방식으로 반복해요. 팁: 먼저 ‘안쪽 = 무엇’으로 두고, 밖 함수만 미분한 뒤, 안쪽을 로 미분한 것을 곱하면 돼요.
가장 쉬운 예: . 안쪽 → 미분하면 . 밖쪽 → 미분하면 . 곱하면 . 일 때 기울기는 이에요.
쉬운 것부터 다양한 예시를 표로 정리했어요. 각 줄에서 ‘안의 미분’과 ‘밖의 미분’을 곱하면 답이에요.
| 문제 | 풀이 |
|---|---|
| 쉬운 예 | 안 → 안 미분 , 밖 → 밖 미분 ; 곱하면 |
| 쉬운 예 | 안 → 안 미분 , 밖 → 밖 미분 ; 곱하면 |
| 예 | 안 미분 , 밖 미분 → 곱하면 |
| 예 | 안 미분 , 밖 미분 → 곱하면 |
| 예 | 안 → 안 미분 , 밖 → 밖 미분 ; 곱하면 |
| 예 | 안 미분 , 밖 미분 → 곱하면 |
| 예 | 안 미분 , 밖 미분 → 곱하면 |