Chapter 03

线性层(权重与偏置)

对输入乘以权重矩阵并加上偏置的层。

按章节的深度学习图示

每完成一章,下方图示会逐步填满。这是目前的结构。

X1X2X3Y1Y2Y3权重·输入+偏置ReLUY结果

这一段是线性层。用 Y=W·X+b 把输入一次算到下一层。

深度学习中的线性层

线性层对输入乘权重 (W) 再加偏置 (b) 得到输出:Y = W·X + b。其中 W·X 是矩阵乘法,b 用来上下平移基线。

可以类比为成绩计算公式:「数学×0.3 + 理科×0.5 + 英语×0.2 + 10」。其中 0.3、0.5、0.2 是权重 (W),10 是偏置 (b),各科成绩是输入 (X)

一个线性层决定「各输入缩放多少、整体偏移多少」。如果有多个输出,每个输出用不同的权重和偏置,一次算出多个分数。

几乎所有深度学习模型都把线性层当基本组件。ChatGPT、翻译器、图像分类器都在反复执行数百到数千次「W·X + b」。线性层是深度学习的砖块

模型大小(参数量) 取决于每个线性层「多少个输入 → 多少个输出」。参数量决定了模型能学到多复杂的东西(容量),也影响过拟合(只记住训练数据而非真正学会)的风险。

但是,只堆叠线性层等于做了一次线性运算(只能画直线)。所以每个线性层后面总要加激活函数(弯折函数),才能表达曲线和复杂模式

ChatGPT 与翻译器:句子转成数值向量后,经过数十到上百个线性层,每层都做 W·X + b 再接激活函数,从而理解语境并生成回答。

图像识别:图片的特征向量送入线性层,同时算出「狗分数」「猫分数」「鸟分数」。最后一个线性层的输出就是各类别的分数。

推荐系统:将用户信息和商品信息拼成一个向量,经过线性层得到「该用户有多喜欢该商品」的分数。层数越多推荐越精准。

公式:输入 X权重矩阵 W、加偏置 b 得到输出 Y,即 Y = W·X + b。线性层题目会给出 X、W、b,让你求 Y,如下方紫色框中的示例。

数值例子:X = [2, 1],W = [[1,0],[1,1]],b = [1, -1] 时,W·X = (2, 3),加上偏置 b 得 Y = (2+1, 3-1) = [3, 2]。偏置会抬高或压低各输出的基准。Y 的每一格等于 W 的对应行X 的内积再加 b 的对应格

填空策略:空白在 Y 中就用该行算 W·X + b;空白在 W 或 b 中就用已知的 Y 和 X 列方程反推。算完后代回 Y = W·X + b 验算即可。

输入 X 乘以权重矩阵 W 再加偏置 b 得到输出 Y。Y=WX+bY = W \cdot X + b

X
2
1
·
W
1
0
1
1
+
b
1
-1
=
Y
3
2

W 第1行·X + b[0] → Y[0]|W 第2行·X + b[1] → Y[1]

题目

求下列线性层 Y=WX+bY = W \cdot X + b 中空格(?)处应填的数。

X
1
2
·
W
0
-2
+
b
0
=
Y
1 / 20