Chapter 07

权重连接

层与层、神经元与神经元之间的加权连接。

按章节的深度学习图示

每完成一章,下方图示会逐步填满。这是目前的结构。

层与层之间的每条线都是权重(w)。输入乘权重相加,再加上偏置(b)得到下一层 Y。

权重(w)权重(w)权重(w)权重(w)权重(w)权重(w)权重(w)权重(w)权重(w)X1X2X3+偏置(b)Y1Y2Y3

圆是值,线是权重(w)。加权和加上偏置(b)得到下一层 Y。

深度学习中的连接

连接描述前一层的神经元如何连到下一层的神经元。每条连接有一个权重(数值),决定「这个输入对这个输出的影响有多大」。

全连接:前一层每个神经元都连到后一层每个神经元。我们学过的线性层(Y = W·X + b)就是全连接层——W 的每个位置都有值。

部分连接:W 中有些位置为,表示「没有连接」。该输入对该输出毫无影响。CNN 只连接相邻像素,就是部分连接的经典例子。

连接结构决定了模型的特性。 全连接考虑所有输入(信息更全但参数更多),部分连接只看需要的部分(高效快速但可能遗漏信息)。

AI 训练就是调整连接强度(权重)的过程。 「把这条连接调强、那条调弱」——反复微调使输出越来越接近正确答案。大模型拥有数十亿条这样的连接。

看 W 中哪里是零就能知道模型忽略了什么。训练后权重接近零的连接说明「这条信息不重要」。利用这一点可以做剪枝来让模型更轻量。

图像识别(CNN):使用部分连接,只连接相邻像素。远处的像素关系不大,这样减少参数,又快又高效。

聊天机器人与翻译(Transformer)注意力机制决定「哪些词与哪些词相关」——它从数据中动态学习哪些连接要加强。

推荐与语音识别:将用户特征与商品特征之间的连接权重直接作为推荐分数。语音识别中,模型学习每个频率特征如何连接到下一层的特征。

W = 0 表示无连接:例如 W(2,1) = 0,则第 1 个输入对第 2 个输出的影响为。计算时可以直接跳过

求某个输出:找出与该输出有连接(W ≠ 0)的输入,只对这些位置做 W × X 并求和,再加 b 即可。零的位置乘出来也是零,跳过结果一样。

填空策略:先找出 W 中的零,再只用非零连接列方程。空白在 W 中就用 Y 和 X 反推;空白在 Y 中就从 W 和 X 正算。

连接表示一层中的神经元与下一层神经元如何相连。只有非零权重才有实际连接;下图只画出这些部分连接。

W
0
1
0
0
1
0
·
X
1
2
1
+
b
1
-1
=
Y
3
1

每个输出:(W 该行·X) 相乘 + b 相加 = Y

Y₁ = (W 第1行·X) + b₁ = (0×1 + 1×2 + 0×1) + 1 = 2 + 1 = 3
Y₂ = (W 第2行·X) + b₂ = (0×1 + 1×2 + 0×1) + (-1) = 2 + (-1) = 1

W 第1行·X + b[0] → Y[0]|W 第2行·X + b[1] → Y[1]

题目

在连接 Y=WX+bY = W \cdot X + b 中,求空白(?)处的值。W 为 0 的输入与该输出无连接。

X
2
1
·
W
-1
0
+
b
-1
=
Y
1 / 20