Chapter 07
权重连接
层与层、神经元与神经元之间的加权连接。
按章节的深度学习图示
每完成一章,下方图示会逐步填满。这是目前的结构。
层与层之间的每条线都是权重(w)。输入乘权重相加,再加上偏置(b)得到下一层 Y。
圆是值,线是权重(w)。加权和加上偏置(b)得到下一层 Y。
深度学习中的连接
连接描述前一层的神经元如何连到下一层的神经元。每条连接有一个权重(数值),决定「这个输入对这个输出的影响有多大」。
全连接:前一层每个神经元都连到后一层每个神经元。我们学过的线性层(Y = W·X + b)就是全连接层——W 的每个位置都有值。
部分连接:W 中有些位置为零,表示「没有连接」。该输入对该输出毫无影响。CNN 只连接相邻像素,就是部分连接的经典例子。
连接结构决定了模型的特性。 全连接考虑所有输入(信息更全但参数更多),部分连接只看需要的部分(高效快速但可能遗漏信息)。
AI 训练就是调整连接强度(权重)的过程。 「把这条连接调强、那条调弱」——反复微调使输出越来越接近正确答案。大模型拥有数十亿条这样的连接。
看 W 中哪里是零就能知道模型忽略了什么。训练后权重接近零的连接说明「这条信息不重要」。利用这一点可以做剪枝来让模型更轻量。
图像识别(CNN):使用部分连接,只连接相邻像素。远处的像素关系不大,这样减少参数,又快又高效。
聊天机器人与翻译(Transformer):注意力机制决定「哪些词与哪些词相关」——它从数据中动态学习哪些连接要加强。
推荐与语音识别:将用户特征与商品特征之间的连接权重直接作为推荐分数。语音识别中,模型学习每个频率特征如何连接到下一层的特征。
W = 0 表示无连接:例如 W(2,1) = 0,则第 1 个输入对第 2 个输出的影响为零。计算时可以直接跳过。
求某个输出:找出与该输出有连接(W ≠ 0)的输入,只对这些位置做 W × X 并求和,再加 b 即可。零的位置乘出来也是零,跳过结果一样。
填空策略:先找出 W 中的零,再只用非零连接列方程。空白在 W 中就用 Y 和 X 反推;空白在 Y 中就从 W 和 X 正算。
连接表示一层中的神经元与下一层神经元如何相连。只有非零权重才有实际连接;下图只画出这些部分连接。
每个输出:(W 该行·X) 相乘 + b 相加 = Y
W 第1行·X + b[0] → Y[0]|W 第2行·X + b[1] → Y[1]
题目
在连接 中,求空白(?)处的值。W 为 0 的输入与该输出无连接。