Chapter 07

연쇄 법칙

함수를 겹쳐 쓴 걸 미분할 때는 밖의 미분 \times 안의 미분 으로 곱하면 됩니다. 역전파의 핵심이에요.

챕터별 수학 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.

겹친 함수는 $x$ → 안쪽 → 밖쪽 → $y$ 처럼 연쇄로 이어져 있어요. 밖의 미분 × 안의 미분을 곱하면 전체 미분이에요.

예시로 보는 계산 순서 (한 번에 하나씩 강조)

1.예: 위 그래프처럼

u = g(x) = 2x+1

y = f(u) = u^2

일 때

y = (2x+1)^2

를

x

로 미분하자.

2.① 안의 미분 (왼쪽 그래프):

u = g(x) = 2x+1

을

x

로 미분 →

2

3.② 밖의 미분 (오른쪽 그래프):

y = f(u) = u^2

를

u

로 미분 →

2u = 2(2x+1)

4.③ 곱하기:

2 \times 2(2x+1) = 4(2x+1)

→ 답

점이 연쇄를 따라 움직이듯, 변화율이 곱해지면서 전달돼요. 역전파도 이 곱하기가 반복되는 구조예요.

연쇄 법칙이란

한마디로 함수를 겹쳐 놓은 것이 합성함수예요.

x

를 먼저 한 함수에 넣고, 나온 값을 다시 다른 함수에 넣어서 최종 결과를 만드는 거예요. 이렇게 겹친 함수를 미분할 때 쓰는 규칙이 연쇄 법칙이에요. 예를 들어

y=(2x+1)^2

는 ‘

2x+1

을 구한 뒤 그걸 제곱한다’는 두 단계가 이어져 있어요. 이런 걸 한 번에

x

에 대해 미분하려면 연쇄 법칙이 필요해요.

쉽게 말하면 ‘겹친 함수’는 두 번 거쳐서 결과가 나오는 거예요.

x

→ (첫 번째 계산) → (두 번째 계산) →

y

. 연쇄 법칙은 첫 번째에서의 기울기 × 두 번째에서의 기울기를 곱하면 전체 기울기가 나온다는 규칙이에요.

한 줄 요약: 겹친 함수를

x

로 미분할 때는 밖의 미분과 안의 미분을 곱하면 돼요. 계산 과정은 아래 표를 보세요.

단계	할 일	예: $y=(2x+1)^2$
1	안쪽과 밖쪽 구분	안쪽 $2x+1$ , 밖쪽 제곱
2	안의 미분 — 안쪽을 $x$ 로 미분	$(2x+1)' = 2$
3	밖의 미분 — 밖쪽을 미분 (안쪽 전체를 한 덩어리로)	$(u^2)' = 2u$ → $2(2x+1)$
4	두 값을 곱하기	$2 \times 2(2x+1) = 4(2x+1)$ → 답

대표 수식:

\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}

또는

(f \circ g)'(x) = f'(g(x)) \cdot g'(x)

. 위 비주얼처럼

x

→ 안쪽 → 밖쪽 →

y

순서로 이어지므로 각 구간의 미분을 곱하면 돼요. 안쪽이 또 겹쳐 있으면 그 부분에서도 같은 방식으로 밖의 미분 × 안의 미분을 반복해서 곱하면 돼요.

직관적으로

x

를 조금 바꿀 때, 안쪽이 바뀌는 비율과 밖쪽이 바뀌는 비율을 곱하면 최종값

y

가 바뀌는 비율이 나와요. 위 비주얼에서 점이 한 그래프에서 다음 그래프로 넘어가듯, 이 두 비율이 곱해져서 전달되는 거예요. 일상 비유: 거리 → 시간에 대한 변화율(속도)과, 시간 → 연료에 대한 변화율을 곱하면 ‘거리가 조금 바뀔 때 연료가 얼마나 바뀌는지’를 한 번에 구할 수 있어요.

숫자로 보는 쉬운 예:

y=(2x+1)^2

에서

x=1

이면 안쪽

2x+1=3

, 밖쪽

3^2=9

예요.

x

를 1에서 1.1로 조금 키우면 안쪽은 3→3.2, 밖쪽은 9→10.24로 변해요. 연쇄 법칙으로 구한 기울기

4(2x+1)

에

x=1

을 넣으면

4\times 3=12

인데, 이게 바로 ‘

x

를 조금 키울 때

y

가 얼마나 빨리 변하는가’의 비율이에요. 한 줄: 안의 미분

2

와 밖의 미분

2(2x+1)

을 곱하면

4(2x+1)

이 나와요.

딥러닝에서는 층이 여러 개 이어져 있어요. 입력이 1층을 지나고, 2층을 지나고, … 마지막에 손실이 나와요. 이 손실은 겹친 함수의 최종 결과와 같아요. 학습을 하려면 ‘각 가중치를 조금 바꿀 때 손실이 얼마나 변하는지’를 알아야 하니까, 이 손실을 각 가중치로 미분해야 해요.

역전파는 손실에서 입력 쪽으로 한 단계씩 미분을 넘기는 방법이에요. 매 단계마다 ‘다음 단계에서 넘어온 값’에 ‘이 단계에서의 미분’을 곱해서 앞으로 보내요. 이 곱하기가 바로 연쇄 법칙이에요. 층이 10개면 이 곱하기가 10번 반복되는 거예요.

정리하면 연쇄 법칙은 역전파의 뼈대예요. Ch06 도함수를 알았다면, 여기서는 ‘겹친 함수’에 그걸 적용하는 것만 익히면 돼요. 연쇄 법칙만 잘 쓰면 역전파 코드의 핵심 흐름을 이해할 수 있어요.

일반적으로 한 걸 바꾸면 다른 게 연쇄적으로 바뀌는 상황에서 총 변화율을 구할 때 써요. 연쇄적으로 연결된 변화율은 전부 곱하면 돼요. 아래 표는 여러 분야에서 같은 방식이 쓰이는 예예요.

상황	구하는 것	연쇄 법칙 (총 변화율)
비용이 생산량에, 생산량이 시간에 달려 있을 때	비용이 시간에 얼마나 빨리 변하는지	(비용/생산량) $\times$ (생산량/시간)
풍선 반지름이 시간에 따라 변할 때	부피가 시간에 얼마나 빨리 변하는지	(부피/반지름) $\times$ (반지름/시간)
속도가 위치에, 위치가 시간에 달려 있을 때	가속도와의 연결	(속도/위치) $\times$ (위치/시간)

AI 학습에서는 손실이 여러 층을 거쳐 나오므로, 각 가중치로 미분할 때 연쇄 법칙으로 한 층씩 곱해 나가요. ChatGPT처럼 대규모 언어 모델이 학습할 때는 수십~수백 개의 층을 거쳐 ‘입력 문장 → 예측 단어’가 나오고, 그 예측과 정답의 차이(손실)를 각 층의 가중치로 미분해 ‘어느 가중치를 얼마나 바꿀지’를 구해요. 이때 손실에서 입력 쪽으로 한 단계씩 연쇄 법칙으로 곱해 가는 것이 역전파예요. 이미지 인식(사진에서 물체 찾기), 추천(넷플릭스·유튜브), 번역기, 음성 인식도 같은 원리로, 손실을 각 가중치에 전달할 때 연쇄 법칙이 반복돼요. PyTorch·TensorFlow 같은 라이브러리는 이 곱하기를 자동으로 쌓아서 역전파를 계산해요. 이걸 마치면 Ch08 편미분·그라디언트로 자연스럽게 이어갈 수 있어요.

겹친 함수를 미분할 때는 안쪽을 한 덩어리로 보고 밖을 미분한 것과 안을 미분한 것을 곱하면 돼요. 안쪽이 또 겹쳐 있으면 그 부분에도 같은 방식으로 반복해요. 팁: 먼저 ‘안쪽 = 무엇’으로 두고, 밖 함수만 미분한 뒤, 안쪽을

x

로 미분한 것을 곱하면 돼요.

가장 쉬운 예:

y=(3x)^2

. 안쪽

u=3x

→ 미분하면

3

. 밖쪽

u^2

→ 미분하면

2u=2\cdot 3x

. 곱하면

3 \times 2\cdot 3x = 18x

x=2

일 때 기울기는

36

이에요.

쉬운 것부터 다양한 예시를 표로 정리했어요. 각 줄에서 ‘안의 미분’과 ‘밖의 미분’을 곱하면 답이에요.

문제	풀이
쉬운 예 $y=(3x)^2$	안 $u=3x$ → 안 미분 $3$ , 밖 $u^2$ → 밖 미분 $2u$ ; 곱하면 $2\cdot 3x\cdot 3=18x$
쉬운 예 $y=\sqrt{x+1}$	안 $u=x+1$ → 안 미분 $1$ , 밖 $\sqrt{u}$ → 밖 미분 $1/(2\sqrt{u})$ ; 곱하면 $1/(2\sqrt{x+1})$
예 $y=(2x+1)^5$	안 미분 $2$ , 밖 미분 $5(2x+1)^4$ → 곱하면 $10(2x+1)^4$
예 $y=e^{x^2}$	안 미분 $2x$ , 밖 미분 $e^{x^2}$ → 곱하면 $2x\,e^{x^2}$
예 $y=\sin(2x)$	안 $u=2x$ → 안 미분 $2$ , 밖 $\sin u$ → 밖 미분 $\cos u$ ; 곱하면 $2\cos(2x)$
예 $y=e^{3x}$	안 미분 $3$ , 밖 미분 $e^{3x}$ → 곱하면 $3e^{3x}$
예 $y=\ln(\sin x)$	안 미분 $\cos x$ , 밖 미분 $1/\sin x$ → 곱하면 $\cos x/\sin x=\cot x$