Chapter 03
线性层(权重与偏置)
对输入乘以权重矩阵并加上偏置的层。
按章节的深度学习图示
每完成一章,下方图示会逐步填满。这是目前的结构。
这一段是线性层。用 Y=W·X+b 把输入一次算到下一层。
深度学习中的线性层
线性层对输入乘权重 (W) 再加偏置 (b) 得到输出:Y = W·X + b。其中 W·X 是矩阵乘法,b 用来上下平移基线。
可以类比为成绩计算公式:「数学×0.3 + 理科×0.5 + 英语×0.2 + 10」。其中 0.3、0.5、0.2 是权重 (W),10 是偏置 (b),各科成绩是输入 (X)。
一个线性层决定「各输入缩放多少、整体偏移多少」。如果有多个输出,每个输出用不同的权重和偏置,一次算出多个分数。
几乎所有深度学习模型都把线性层当基本组件。ChatGPT、翻译器、图像分类器都在反复执行数百到数千次「W·X + b」。线性层是深度学习的砖块。
模型大小(参数量) 取决于每个线性层「多少个输入 → 多少个输出」。参数量决定了模型能学到多复杂的东西(容量),也影响过拟合(只记住训练数据而非真正学会)的风险。
但是,只堆叠线性层等于做了一次线性运算(只能画直线)。所以每个线性层后面总要加激活函数(弯折函数),才能表达曲线和复杂模式。
ChatGPT 与翻译器:句子转成数值向量后,经过数十到上百个线性层,每层都做 W·X + b 再接激活函数,从而理解语境并生成回答。
图像识别:图片的特征向量送入线性层,同时算出「狗分数」「猫分数」「鸟分数」。最后一个线性层的输出就是各类别的分数。
推荐系统:将用户信息和商品信息拼成一个向量,经过线性层得到「该用户有多喜欢该商品」的分数。层数越多推荐越精准。
公式:输入 X 乘权重矩阵 W、加偏置 b 得到输出 Y,即 Y = W·X + b。线性层题目会给出 X、W、b,让你求 Y,如下方紫色框中的示例。
数值例子:X = [2, 1],W = [[1,0],[1,1]],b = [1, -1] 时,W·X = (2, 3),加上偏置 b 得 Y = (2+1, 3-1) = [3, 2]。偏置会抬高或压低各输出的基准。Y 的每一格等于 W 的对应行与 X 的内积再加 b 的对应格。
填空策略:空白在 Y 中就用该行算 W·X + b;空白在 W 或 b 中就用已知的 Y 和 X 列方程反推。算完后代回 Y = W·X + b 验算即可。
输入 X 乘以权重矩阵 W 再加偏置 b 得到输出 Y。
W 第1行·X + b[0] → Y[0]|W 第2行·X + b[1] → Y[1]
题目
求下列线性层 中空格(?)处应填的数。