Chapter 03

线性层（权重与偏置）

对输入乘以权重矩阵并加上偏置的层。

按章节的深度学习图示

每完成一章，下方图示会逐步填满。这是目前的结构。

这一段是线性层。用 Y=W·X+b 把输入一次算到下一层。

深度学习中的线性层

线性层对输入乘权重 (W) 再加偏置 (b) 得到输出：Y = W·X + b。其中 W·X 是矩阵乘法，b 用来上下平移基线。

可以类比为成绩计算公式：「数学×0.3 + 理科×0.5 + 英语×0.2 + 10」。其中 0.3、0.5、0.2 是权重 (W)，10 是偏置 (b)，各科成绩是输入 (X)。

一个线性层决定「各输入缩放多少、整体偏移多少」。如果有多个输出，每个输出用不同的权重和偏置，一次算出多个分数。

几乎所有深度学习模型都把线性层当基本组件。ChatGPT、翻译器、图像分类器都在反复执行数百到数千次「W·X + b」。线性层是深度学习的砖块。

模型大小（参数量） 取决于每个线性层「多少个输入 → 多少个输出」。参数量决定了模型能学到多复杂的东西（容量），也影响过拟合（只记住训练数据而非真正学会）的风险。

但是，只堆叠线性层等于做了一次线性运算（只能画直线）。所以每个线性层后面总要加激活函数（弯折函数），才能表达曲线和复杂模式。

ChatGPT 与翻译器：句子转成数值向量后，经过数十到上百个线性层，每层都做 W·X + b 再接激活函数，从而理解语境并生成回答。

图像识别：图片的特征向量送入线性层，同时算出「狗分数」「猫分数」「鸟分数」。最后一个线性层的输出就是各类别的分数。

推荐系统：将用户信息和商品信息拼成一个向量，经过线性层得到「该用户有多喜欢该商品」的分数。层数越多推荐越精准。

公式：输入 X 乘权重矩阵 W、加偏置 b 得到输出 Y，即 Y = W·X + b。线性层题目会给出 X、W、b，让你求 Y，如下方紫色框中的示例。

数值例子：X = [2, 1]，W = [[1,0],[1,1]]，b = [1, -1] 时，W·X = (2, 3)，加上偏置 b 得 Y = (2+1, 3-1) = [3, 2]。偏置会抬高或压低各输出的基准。Y 的每一格等于 W 的对应行与 X 的内积再加 b 的对应格。

填空策略：空白在 Y 中就用该行算 W·X + b；空白在 W 或 b 中就用已知的 Y 和 X 列方程反推。算完后代回 Y = W·X + b 验算即可。

输入 X 乘以权重矩阵 W 再加偏置 b 得到输出 Y。 $Y = W \cdot X + b$

-1

W 第1行·X + b[0] → Y[0]|W 第2行·X + b[1] → Y[1]

题目

求下列线性层 $Y = W \cdot X + b$ 中空格(?)处应填的数。

-2

−

1 / 20