Chapter 07

연쇄 법칙

함수를 겹쳐 쓴 걸 미분할 때는 밖의 미분 × 안의 미분으로 곱하면 됩니다. 역전파의 핵심이에요.

챕터별 수학 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.

겹친 함수는 xx → 안쪽 → 밖쪽 → yy처럼 연쇄로 이어져 있어요. 밖의 미분 × 안의 미분을 곱하면 전체 미분이에요.

예시로 보는 계산 순서 (한 번에 하나씩 강조)

1.예: 위 그래프처럼 u=g(x)=2x+1u = g(x) = 2x+1, y=f(u)=u2y = f(u) = u^2일 때 y=(2x+1)2y = (2x+1)^2xx로 미분하자.
2.① 안의 미분 (왼쪽 그래프): u=g(x)=2x+1u = g(x) = 2x+1xx로 미분 → 22
3.② 밖의 미분 (오른쪽 그래프): y=f(u)=u2y = f(u) = u^2uu로 미분 → 2u=2(2x+1)2u = 2(2x+1)
4.③ 곱하기: 2×2(2x+1)=4(2x+1)2 \times 2(2x+1) = 4(2x+1) → 답

점이 연쇄를 따라 움직이듯, 변화율이 곱해지면서 전달돼요. 역전파도 이 곱하기가 반복되는 구조예요.

연쇄 법칙이란

한마디로 함수를 겹쳐 놓은 것이 합성함수예요. xx를 먼저 한 함수에 넣고, 나온 값을 다시 다른 함수에 넣어서 최종 결과를 만드는 거예요. 이렇게 겹친 함수를 미분할 때 쓰는 규칙이 연쇄 법칙이에요. 예를 들어 y=(2x+1)2y=(2x+1)^2는 ‘2x+12x+1을 구한 뒤 그걸 제곱한다’는 두 단계가 이어져 있어요. 이런 걸 한 번에 xx에 대해 미분하려면 연쇄 법칙이 필요해요.
쉽게 말하면 ‘겹친 함수’는 두 번 거쳐서 결과가 나오는 거예요. xx → (첫 번째 계산) → (두 번째 계산) → yy. 연쇄 법칙은 첫 번째에서의 기울기 × 두 번째에서의 기울기를 곱하면 전체 기울기가 나온다는 규칙이에요.
한 줄 요약: 겹친 함수를 xx로 미분할 때는 밖의 미분안의 미분하면 돼요. 계산 과정은 아래 표를 보세요.
단계할 일예: y=(2x+1)2y=(2x+1)^2
1안쪽밖쪽 구분안쪽 2x+12x+1, 밖쪽 제곱
2안의 미분 — 안쪽을 xx로 미분(2x+1)=2(2x+1)' = 2
3밖의 미분 — 밖쪽을 미분 (안쪽 전체를 한 덩어리로)(u2)=2u(u^2)' = 2u2(2x+1)2(2x+1)
4두 값을 하기2×2(2x+1)=4(2x+1)2 \times 2(2x+1) = 4(2x+1) → 답
대표 수식: dydx=dydududx\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} 또는 (fg)(x)=f(g(x))g(x)(f \circ g)'(x) = f'(g(x)) \cdot g'(x). 위 비주얼처럼 xx → 안쪽 → 밖쪽 → yy 순서로 이어지므로 각 구간의 미분을 곱하면 돼요. 안쪽이 또 겹쳐 있으면 그 부분에서도 같은 방식으로 밖의 미분 × 안의 미분을 반복해서 곱하면 돼요.
직관적으로 xx를 조금 바꿀 때, 안쪽이 바뀌는 비율과 밖쪽이 바뀌는 비율을 곱하면 최종값 yy가 바뀌는 비율이 나와요. 위 비주얼에서 점이 한 그래프에서 다음 그래프로 넘어가듯, 이 두 비율이 곱해져서 전달되는 거예요. 일상 비유: 거리 → 시간에 대한 변화율(속도)과, 시간 → 연료에 대한 변화율을 곱하면 ‘거리가 조금 바뀔 때 연료가 얼마나 바뀌는지’를 한 번에 구할 수 있어요.
숫자로 보는 쉬운 예: y=(2x+1)2y=(2x+1)^2에서 x=1x=1이면 안쪽 2x+1=32x+1=3, 밖쪽 32=93^2=9예요. xx를 1에서 1.1로 조금 키우면 안쪽은 3→3.2, 밖쪽은 9→10.24로 변해요. 연쇄 법칙으로 구한 기울기 4(2x+1)4(2x+1)x=1x=1을 넣으면 4×3=124\times 3=12인데, 이게 바로 ‘xx를 조금 키울 때 yy가 얼마나 빨리 변하는가’의 비율이에요. 한 줄: 안의 미분 22와 밖의 미분 2(2x+1)2(2x+1)을 곱하면 4(2x+1)4(2x+1)이 나와요.
딥러닝에서는 층이 여러 개 이어져 있어요. 입력이 1층을 지나고, 2층을 지나고, … 마지막에 손실이 나와요. 이 손실은 겹친 함수의 최종 결과와 같아요. 학습을 하려면 ‘각 가중치를 조금 바꿀 때 손실이 얼마나 변하는지’를 알아야 하니까, 이 손실을 각 가중치로 미분해야 해요.
역전파는 손실에서 입력 쪽으로 한 단계씩 미분을 넘기는 방법이에요. 매 단계마다 ‘다음 단계에서 넘어온 값’에 ‘이 단계에서의 미분’을 곱해서 앞으로 보내요. 이 곱하기가 바로 연쇄 법칙이에요. 층이 10개면 이 곱하기가 10번 반복되는 거예요.
정리하면 연쇄 법칙은 역전파의 뼈대예요. Ch06 도함수를 알았다면, 여기서는 ‘겹친 함수’에 그걸 적용하는 것만 익히면 돼요. 연쇄 법칙만 잘 쓰면 역전파 코드의 핵심 흐름을 이해할 수 있어요.
일반적으로 한 걸 바꾸면 다른 게 연쇄적으로 바뀌는 상황에서 총 변화율을 구할 때 써요. 연쇄적으로 연결된 변화율은 전부 곱하면 돼요. 아래 표는 여러 분야에서 같은 방식이 쓰이는 예예요.
상황구하는 것연쇄 법칙 (총 변화율)
비용이 생산량에, 생산량이 시간에 달려 있을 때비용이 시간에 얼마나 빨리 변하는지(비용/생산량) ×\times (생산량/시간)
풍선 반지름이 시간에 따라 변할 때부피가 시간에 얼마나 빨리 변하는지(부피/반지름) ×\times (반지름/시간)
속도가 위치에, 위치가 시간에 달려 있을 때가속도와의 연결(속도/위치) ×\times (위치/시간)
AI 학습에서는 손실이 여러 층을 거쳐 나오므로, 각 가중치로 미분할 때 연쇄 법칙으로 한 층씩 곱해 나가요. ChatGPT처럼 대규모 언어 모델이 학습할 때는 수십~수백 개의 층을 거쳐 ‘입력 문장 → 예측 단어’가 나오고, 그 예측과 정답의 차이(손실)를 각 층의 가중치로 미분해 ‘어느 가중치를 얼마나 바꿀지’를 구해요. 이때 손실에서 입력 쪽으로 한 단계씩 연쇄 법칙으로 곱해 가는 것이 역전파예요. 이미지 인식(사진에서 물체 찾기), 추천(넷플릭스·유튜브), 번역기, 음성 인식도 같은 원리로, 손실을 각 가중치에 전달할 때 연쇄 법칙이 반복돼요. PyTorch·TensorFlow 같은 라이브러리는 이 곱하기를 자동으로 쌓아서 역전파를 계산해요. 이걸 마치면 Ch08 편미분·그라디언트로 자연스럽게 이어갈 수 있어요.
겹친 함수를 미분할 때는 안쪽을 한 덩어리로 보고 밖을 미분한 것과 안을 미분한 것을 하면 돼요. 안쪽이 또 겹쳐 있으면 그 부분에도 같은 방식으로 반복해요. : 먼저 ‘안쪽 = 무엇’으로 두고, 밖 함수만 미분한 뒤, 안쪽을 xx로 미분한 것을 곱하면 돼요.
가장 쉬운 예: y=(3x)2y=(3x)^2. 안쪽 u=3xu=3x → 미분하면 33. 밖쪽 u2u^2 → 미분하면 2u=23x2u=2\cdot 3x. 곱하면 3×23x=18x3 \times 2\cdot 3x = 18x. x=2x=2일 때 기울기는 3636이에요.
쉬운 것부터 다양한 예시를 표로 정리했어요. 각 줄에서 ‘안의 미분’과 ‘밖의 미분’을 곱하면 답이에요.
문제풀이
쉬운 예 y=(3x)2y=(3x)^2u=3xu=3x → 안 미분 33, 밖 u2u^2 → 밖 미분 2u2u; 곱하면 23x3=18x2\cdot 3x\cdot 3=18x
쉬운 예 y=x+1y=\sqrt{x+1}u=x+1u=x+1 → 안 미분 11, 밖 u\sqrt{u} → 밖 미분 1/(2u)1/(2\sqrt{u}); 곱하면 1/(2x+1)1/(2\sqrt{x+1})
y=(2x+1)5y=(2x+1)^5안 미분 22, 밖 미분 5(2x+1)45(2x+1)^4 → 곱하면 10(2x+1)410(2x+1)^4
y=ex2y=e^{x^2}안 미분 2x2x, 밖 미분 ex2e^{x^2} → 곱하면 2xex22x\,e^{x^2}
y=sin(2x)y=\sin(2x)u=2xu=2x → 안 미분 22, 밖 sinu\sin u → 밖 미분 cosu\cos u; 곱하면 2cos(2x)2\cos(2x)
y=e3xy=e^{3x}안 미분 33, 밖 미분 e3xe^{3x} → 곱하면 3e3x3e^{3x}
y=ln(sinx)y=\ln(\sin x)안 미분 cosx\cos x, 밖 미분 1/sinx1/\sin x → 곱하면 cosx/sinx=cotx\cos x/\sin x=\cot x