Chapter 08

偏微分と勾配：多変数の世界、勾配降下の方向

変数が複数あるとき、 一つの変数だけ 動かして微分するのが 偏微分 、その偏微分を並べたベクトルが 勾配 です。勾配降下法の基礎です。

チャプター別数学図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。基礎数学の流れを一覧で確認できます。

xだけ動かしたときの傾き、yだけ動かしたときの傾きが偏微分です。その二つを合わせた向きが勾配です。

横矢印＝xだけ変えたときの傾き、縦＝yだけ変えたときの傾き。斜めが二つを合わせた勾配 — 最も速く増える方向です。

横矢印: $y$ を固定して $x$ だけ動かしたときの傾き → 偏微分 $\frac{\partial f}{\partial x}$
縦矢印: $x$ を固定して $y$ だけ動かしたときの傾き → 偏微分 $\frac{\partial f}{\partial y}$
斜め矢印: 二つの偏微分を合わせた向き → 勾配 $\nabla f$ （最も速く増える方向）

偏微分と勾配とは

変数が2つ以上の関数で、一つの変数だけを動かし他を定数として微分するのが偏微分です。勾配は偏微分をベクトルに並べたものです。式は一つ：

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

。

直感的な例：山を登るとき（高さ

z

、平面の座標

x,y

）、東（

x

）に一歩進んだときの高さの変化と北（

y

）に一歩進んだときの高さの変化は違います。東向きの傾き（

x

での偏微分）と北向きの傾き（

y

での偏微分）を別々に求めるのが偏微分です。勾配

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

は、この二つを並べたベクトルで、「頂上への最も急な方向」を矢印で表したものです。

例：

f(x,y)=x^{2}+y^{2}

のとき

x

だけで微分すると

y

を定数として

2x

、

y

だけで

2y

。よって

\nabla f = (2x, 2y)

。

勾配は「関数値が最も速く増える方向」を指します。逆方向に進むと最も速く減ります。勾配降下法では勾配の逆方向にパラメータを更新します。

数で見る例：

f(x,y)=x+2y

とすると、

x

が 1 増えると

f

は 1 増え（

x

での偏微分 1）、

y

が 1 増えると

f

は 2 増えます（

y

での偏微分 2）。勾配は

(1, 2)

。山で

x

方向より

y

方向が 2 倍急という意味で、

(1, 2)

の向きに進むと最も速く頂上に着きます。

ディープラーニングモデルの学習原理そのものだからです。AIモデルには数千万・数億個のパラメータ（重み

w_1, w_2, ...

）があります。「どの重みをどう調整すれば誤差が減るか」を知りたいのですが、数億個の変数をいっぺんに考えるのは無理です。偏微分によって「他の重みは固定して

w_1

だけ変えたときの影響」を一つずつ切り出して分析できます。

勾配は、すべての重みに対する修正指示です。「

w_1

は少し増やし、

w_2

は大きく減らせ」といった情報をまとめたベクトル

\nabla L

を求めれば、AIは一度の計算で数億個の重みを正しい方向に同時に更新できます。

偏微分と勾配は多変数最適化の基本言語です。損失関数の勾配を求め、その逆方向に一歩ずつ進むのが勾配降下法であり、これでAIは複雑なデータの中でも正解への道を見つけます。

勾配降下法（Gradient Descent）のエンジンとして使います。目隠しで山を下るとき、足元の傾きのうちいちばん下がる方向に一歩踏み出すのと同じです。勾配は「値が最も速く増える」方向を指すので、誤差を減らすにはその逆方向（マイナス）に進む必要があります。式では 新パラメータ = 前パラメータ − (学習率 $\times$ 勾配) で実装されます。マイナスがつくのは誤差を減らす方向に進むためです。

状況 $誤差を減らす$
使うもの $L$

状況 $最適な方向を見つける$
使うもの $全パラメータの偏微分を並べた勾配を求め、その逆方向に進んで「誤差の谷底」を目指します。$

状況 $効率的な大規模学習$
使うもの $データ全体を使わずミニバッチだけ見ておおよその勾配を求め、素早く更新する SGD（確率的勾配降下法）で使います。$

状況 $多変数の影響分析$
使うもの $経済学で需要が価格と所得の両方に依存するとき、「所得は固定して価格だけ上げるとどうなるか」のように、一要因の影響だけを取り出します。$

状況	使うもの
誤差を減らす	損失関数 $L$ を各重み $w$ で偏微分（ $\frac{\partial L}{\partial w}$ ）し、その重みが誤差の主因かどうかを調べます。
最適な方向を見つける	全パラメータの偏微分を並べた勾配を求め、その逆方向に進んで「誤差の谷底」を目指します。
効率的な大規模学習	データ全体を使わずミニバッチだけ見ておおよその勾配を求め、素早く更新するSGD（確率的勾配降下法）で使います。
多変数の影響分析	経済学で需要が価格と所得の両方に依存するとき、「所得は固定して価格だけ上げるとどうなるか」のように、一要因の影響だけを取り出します。

AI自動学習：PyTorchやTensorFlowで `loss.backward()` を呼ぶと、内部で全重みについての偏微分が行われ、勾配ベクトルが計算されます。この勾配があるからオプティマイザが重みを更新できます。ChatGPTのような大規模言語モデルから画像認識AIまで、現代のAIはすべてこの勾配に沿って賢くなります。

偏微分するときは微分する変数だけを変数とみて、他は定数にします。勾配は偏微分を順にベクトルに並べたものです。コツ：

\frac{\partial f}{\partial x}

は

y

を数とみて

x

だけで微分します。

いちばん簡単な例：

f=3x+2y

。

x

だけで微分するとき

y

を定数とみる →

\partial f/\partial x = 3

。

y

だけで微分するとき

x

を定数とみる →

\partial f/\partial y = 2

。よって

\nabla f = (3, 2)

。点

(1,1)

での勾配も

(3, 2)

です。

易しい例から表にまとめました。一変数だけ見れば Ch06 導関数と同じ公式です。

問題 $f=3x+2y$
解答 $y$

問題 $f=3x+2y$
解答 $x$

問題 $f=x^{2}y$
解答 $y$

問題 $f=x^{2}+y^{2}$
解答 $(2x, 2y)$

問題	解答
$f=3x+2y$ 、 $\partial f/\partial x$	$y$ 定数 → 3
$f=3x+2y$ 、 $\partial f/\partial y$	$x$ 定数 → 2
$f=x^{2}y$ 、 $\partial f/\partial x$	$y$ 定数 → $2xy$
$f=x^{2}+y^{2}$ 、 $\nabla f$	$(2x, 2y)$

問題タイプ別の解法

タイプ $x$
説明 $\frac{\partial f}{\partial x}$
答えの求め方 $y$

タイプ $y$
説明 $\frac{\partial f}{\partial y}$
答えの求め方 $x$

タイプ $勾配$
説明 $\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$
答えの求め方 $(a,b)$

タイプ	説明	答えの求め方
$x$ で偏微分	$\frac{\partial f}{\partial x}$	$y$ を定数とみて $x$ だけで微分。一次式なら $x$ の係数、 $x^2 y$ なら $2xy$ 。
$y$ で偏微分	$\frac{\partial f}{\partial y}$	$x$ を定数とみて $y$ だけで微分。
勾配	$\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$	二つの偏微分を順にベクトルに。点 $(a,b)$ では $x=a$ 、 $y=b$ を代入。

例（x で偏微分）

f=3x+2y

のとき

\frac{\partial f}{\partial x}

と点

(1,1)

での値を求めなさい。

解答

y

を定数とみると

\partial f/\partial x=3

。

(1,1)

でも 3。→ 答 3

例（y で偏微分）

f=3x+2y

のとき

\frac{\partial f}{\partial y}

と点

(1,1)

での値を求めなさい。

解答

x

を定数とみると

\partial f/\partial y=2

。

(1,1)

でも 2。→ 答 2

例（勾配）

f=x^2+y^2

のとき

\nabla f

と点

(1,2)

での勾配を求めなさい。

解答

\partial f/\partial x=2x

、

\partial f/\partial y=2y

。よって

\nabla f=(2x,2y)

。

(1,2)

で

(2,4)

。→ 答 (2, 4) または成分で 2、4

偏微分と勾配とは

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

。

直感的な例：山を登るとき（高さ

z

、平面の座標

x,y

）、東（

x

）に一歩進んだときの高さの変化と北（

y

）に一歩進んだときの高さの変化は違います。東向きの傾き（

x

での偏微分）と北向きの傾き（

y

での偏微分）を別々に求めるのが偏微分です。勾配

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

は、この二つを並べたベクトルで、「頂上への最も急な方向」を矢印で表したものです。

例：

f(x,y)=x^{2}+y^{2}

のとき

x

だけで微分すると

y

を定数として

2x

、

y

だけで

2y

。よって

\nabla f = (2x, 2y)

。

数で見る例：

f(x,y)=x+2y

とすると、

x

が 1 増えると

f

は 1 増え（

x

での偏微分 1）、

y

が 1 増えると

f

は 2 増えます（

y

での偏微分 2）。勾配は

(1, 2)

。山で

x

方向より

y

方向が 2 倍急という意味で、

(1, 2)

の向きに進むと最も速く頂上に着きます。

ディープラーニングモデルの学習原理そのものだからです。AIモデルには数千万・数億個のパラメータ（重み

w_1, w_2, ...

w_1

だけ変えたときの影響」を一つずつ切り出して分析できます。

勾配は、すべての重みに対する修正指示です。「

w_1

は少し増やし、

w_2

は大きく減らせ」といった情報をまとめたベクトル

\nabla L

を求めれば、AIは一度の計算で数億個の重みを正しい方向に同時に更新できます。

状況 $誤差を減らす$
使うもの $L$

状況 $最適な方向を見つける$
使うもの $全パラメータの偏微分を並べた勾配を求め、その逆方向に進んで「誤差の谷底」を目指します。$

状況 $効率的な大規模学習$
使うもの $データ全体を使わずミニバッチだけ見ておおよその勾配を求め、素早く更新する SGD（確率的勾配降下法）で使います。$

状況 $多変数の影響分析$
使うもの $経済学で需要が価格と所得の両方に依存するとき、「所得は固定して価格だけ上げるとどうなるか」のように、一要因の影響だけを取り出します。$

状況	使うもの
誤差を減らす	損失関数 $L$ を各重み $w$ で偏微分（ $\frac{\partial L}{\partial w}$ ）し、その重みが誤差の主因かどうかを調べます。
最適な方向を見つける	全パラメータの偏微分を並べた勾配を求め、その逆方向に進んで「誤差の谷底」を目指します。
効率的な大規模学習	データ全体を使わずミニバッチだけ見ておおよその勾配を求め、素早く更新するSGD（確率的勾配降下法）で使います。
多変数の影響分析	経済学で需要が価格と所得の両方に依存するとき、「所得は固定して価格だけ上げるとどうなるか」のように、一要因の影響だけを取り出します。

偏微分するときは微分する変数だけを変数とみて、他は定数にします。勾配は偏微分を順にベクトルに並べたものです。コツ：

\frac{\partial f}{\partial x}

は

y

を数とみて

x

だけで微分します。

いちばん簡単な例：

f=3x+2y

。

x

だけで微分するとき

y

を定数とみる →

\partial f/\partial x = 3

。

y

だけで微分するとき

x

を定数とみる →

\partial f/\partial y = 2

。よって

\nabla f = (3, 2)

。点

(1,1)

での勾配も

(3, 2)

です。

易しい例から表にまとめました。一変数だけ見れば Ch06 導関数と同じ公式です。

問題 $f=3x+2y$
解答 $y$

問題 $f=3x+2y$
解答 $x$

問題 $f=x^{2}y$
解答 $y$

問題 $f=x^{2}+y^{2}$
解答 $(2x, 2y)$

問題	解答
$f=3x+2y$ 、 $\partial f/\partial x$	$y$ 定数 → 3
$f=3x+2y$ 、 $\partial f/\partial y$	$x$ 定数 → 2
$f=x^{2}y$ 、 $\partial f/\partial x$	$y$ 定数 → $2xy$
$f=x^{2}+y^{2}$ 、 $\nabla f$	$(2x, 2y)$

問題タイプ別の解法

タイプ $x$
説明 $\frac{\partial f}{\partial x}$
答えの求め方 $y$

タイプ $y$
説明 $\frac{\partial f}{\partial y}$
答えの求め方 $x$

タイプ $勾配$
説明 $\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$
答えの求め方 $(a,b)$

タイプ	説明	答えの求め方
$x$ で偏微分	$\frac{\partial f}{\partial x}$	$y$ を定数とみて $x$ だけで微分。一次式なら $x$ の係数、 $x^2 y$ なら $2xy$ 。
$y$ で偏微分	$\frac{\partial f}{\partial y}$	$x$ を定数とみて $y$ だけで微分。
勾配	$\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$	二つの偏微分を順にベクトルに。点 $(a,b)$ では $x=a$ 、 $y=b$ を代入。

例（x で偏微分）

f=3x+2y

のとき

\frac{\partial f}{\partial x}

と点

(1,1)

での値を求めなさい。

解答

y

を定数とみると

\partial f/\partial x=3

。

(1,1)

でも 3。→ 答 3

例（y で偏微分）

f=3x+2y

のとき

\frac{\partial f}{\partial y}

と点

(1,1)

での値を求めなさい。

解答

x

を定数とみると

\partial f/\partial y=2

。

(1,1)

でも 2。→ 答 2

例（勾配）

f=x^2+y^2

のとき

\nabla f

と点

(1,2)

での勾配を求めなさい。

解答

\partial f/\partial x=2x

、

\partial f/\partial y=2y

。よって

\nabla f=(2x,2y)

。

(1,2)

で

(2,4)

。→ 答 (2, 4) または成分で 2、4

偏微分と勾配：多変数の世界、勾配降下の方向

チャプター別 数学図

偏微分と勾配とは

偏微分と勾配：多変数の世界、勾配降下の方向

チャプター別 数学図

偏微分と勾配とは

チャプター別数学図

チャプター別数学図