Chapter 07

权重连接

层与层、神经元与神经元之间的加权连接。

每完成一章，下方图示会逐步填满。这是目前的结构。

层与层之间的每条线都是权重(w)。输入乘权重相加，再加上偏置(b)得到下一层 Y。

圆是值，线是权重(w)。加权和加上偏置(b)得到下一层 Y。

深度学习中的连接

连接描述前一层的神经元如何连到下一层的神经元。每条连接有一个权重（数值），决定「这个输入对这个输出的影响有多大」。

全连接：前一层每个神经元都连到后一层每个神经元。我们学过的线性层（Y = W·X + b）就是全连接层——W 的每个位置都有值。

部分连接：W 中有些位置为零，表示「没有连接」。该输入对该输出毫无影响。CNN 只连接相邻像素，就是部分连接的经典例子。

连接结构决定了模型的特性。 全连接考虑所有输入（信息更全但参数更多），部分连接只看需要的部分（高效快速但可能遗漏信息）。

AI 训练就是调整连接强度（权重）的过程。 「把这条连接调强、那条调弱」——反复微调使输出越来越接近正确答案。大模型拥有数十亿条这样的连接。

看 W 中哪里是零就能知道模型忽略了什么。训练后权重接近零的连接说明「这条信息不重要」。利用这一点可以做剪枝来让模型更轻量。

图像识别（CNN）：使用部分连接，只连接相邻像素。远处的像素关系不大，这样减少参数，又快又高效。

聊天机器人与翻译（Transformer）：注意力机制决定「哪些词与哪些词相关」——它从数据中动态学习哪些连接要加强。

推荐与语音识别：将用户特征与商品特征之间的连接权重直接作为推荐分数。语音识别中，模型学习每个频率特征如何连接到下一层的特征。

W = 0 表示无连接：例如 W(2,1) = 0，则第 1 个输入对第 2 个输出的影响为零。计算时可以直接跳过。

求某个输出：找出与该输出有连接（W ≠ 0）的输入，只对这些位置做 W × X 并求和，再加 b 即可。零的位置乘出来也是零，跳过结果一样。

填空策略：先找出 W 中的零，再只用非零连接列方程。空白在 W 中就用 Y 和 X 反推；空白在 Y 中就从 W 和 X 正算。

连接表示一层中的神经元与下一层神经元如何相连。只有非零权重才有实际连接；下图只画出这些部分连接。

-1

每个输出：(W 该行·X) 相乘 + b 相加 = Y

Y₁ = (W 第1行·X) + b₁ = (0×1 + 1×2 + 0×1) + 1 = 2 + 1 = 3

Y₂ = (W 第2行·X) + b₂ = (0×1 + 1×2 + 0×1) + (-1) = 2 + (-1) = 1

W 第1行·X + b[0] → Y[0]|W 第2行·X + b[1] → Y[1]

在连接 $Y = W \cdot X + b$ 中，求空白(?)处的值。W 为 0 的输入与该输出无连接。

-1

−

1 / 20