Chapter 08
隐藏层(看不见的层)
位于输入层与输出层之间的层。
按章节的深度学习图示
每完成一章,下方图示会逐步填满。这是目前的结构。
我们只看到输入(X)和输出(Y)。中间那层只在网络内部使用,所以是隐藏层。
可见: 输入→不可见: 隐藏(H)→可见: 输出
数值沿输入→隐藏层→输出流动。隐藏层是我们看不到的内部表示。
深度学习中的隐藏层
隐藏层是输入与输出之间的中间阶段。用户只看到输入(如照片)和输出(如「狗」),但在中间,隐藏层创造出「隐藏特征」。
流程:X → Linear(W₁·X+b₁) → ReLU → H(隐藏表示)→ Linear(W₂·H+b₂) → ReLU → Y(输出)。H 是隐藏层的结果,包含压缩后的输入「关键特征」。
类比:你看到一张照片说出「狗」,大脑经历了「颜色 → 边缘 → 眼睛/鼻子/耳朵 → 狗!」这些中间思考过程就是隐藏层。隐藏层的神经元数(宽度)决定了能捕捉多少种不同特征。
隐藏层逐步汇总和变换输入数据。浅层捕捉简单特征(亮度、边缘),深层捕捉复杂特征(眼睛、轮子、字母)。
没有隐藏层,模型只能从输入直接映射到输出,只能表达非常简单的(线性)关系。有了隐藏层,就能学习复杂关系(曲线、多条件组合)。
隐藏层的神经元数(宽度) 和层数(深度) 决定模型的表达能力。太小 = 信息瓶颈、效果差;太大 = 过拟合(死记硬背而非真正学会)。
图像识别:「像素 → 边缘 → 纹理 → 物体部件(眼睛、轮子)→ 整体物体(狗、汽车)」这些阶段全是隐藏层。越深的层提取越抽象的特征。
聊天机器人与翻译:文本转为数值后,经过多个隐藏层逐步精炼「词义 → 句意 → 回答方向」。ChatGPT 经过数十个隐藏层(Transformer 块)来生成回答。
语音识别:「声波 → 频率特征 → 音素 → 词 → 句子」每个阶段的转换都经过隐藏层。
按顺序计算:X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y。逐步计算每一步。如果空白在 H 中,只需算完第一段「线性+ReLU」。如果在 Y 中,先算 H 再算第二段。
ReLU 注意点:当线性结果(W·输入+b)为负数时,ReLU 会将其变为 0。到下一层时该值为 0,对应项完全不起作用——可以直接忽略。这是隐藏层题目的常见关键点。
空白在 W 或 b 中:隐藏层题目有两段(两次线性+激活)。先确认空白属于哪一段,如果已知那一段的输入和输出,就可以只用那一段的方程来求解。
隐藏层对输入做线性变换()和 ReLU 得到中间表示 H,再做一次线性变换和 ReLU 得到最终输出 Y。
第1层: H = ReLU(W₁·X + b₁)
第2层: Y = ReLU(W₂·H + b₂)
题目
在带隐藏层的前向传播 X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y 中填入空白(?)处。