Chapter 08

隐藏层(看不见的层)

位于输入层与输出层之间的层。

按章节的深度学习图示

每完成一章,下方图示会逐步填满。这是目前的结构。

我们只看到输入(X)输出(Y)。中间那层只在网络内部使用,所以是隐藏层

可见: 输入不可见: 隐藏(H)可见: 输出

隐藏层(从外不可见)W₁·X+b₁ → ReLUW₂·H+b₂ → ReLUX1X2X3H1H2H3Y1Y2Y3

数值沿输入→隐藏层→输出流动。隐藏层是我们看不到的内部表示

深度学习中的隐藏层

隐藏层输入与输出之间的中间阶段。用户只看到输入(如照片)和输出(如「狗」),但在中间,隐藏层创造出「隐藏特征」

流程:X → Linear(W₁·X+b₁) → ReLU → H(隐藏表示)→ Linear(W₂·H+b₂) → ReLU → Y(输出)。H 是隐藏层的结果,包含压缩后的输入「关键特征」。

类比:你看到一张照片说出「狗」,大脑经历了「颜色 → 边缘 → 眼睛/鼻子/耳朵 → 狗!」这些中间思考过程就是隐藏层。隐藏层的神经元数(宽度)决定了能捕捉多少种不同特征。

隐藏层逐步汇总和变换输入数据。浅层捕捉简单特征(亮度、边缘),深层捕捉复杂特征(眼睛、轮子、字母)。

没有隐藏层,模型只能从输入直接映射到输出,只能表达非常简单的(线性)关系。有了隐藏层,就能学习复杂关系(曲线、多条件组合)。

隐藏层的神经元数(宽度)层数(深度) 决定模型的表达能力。太小 = 信息瓶颈、效果差;太大 = 过拟合(死记硬背而非真正学会)。

图像识别:「像素 → 边缘 → 纹理 → 物体部件(眼睛、轮子)→ 整体物体(狗、汽车)」这些阶段全是隐藏层。越深的层提取越抽象的特征。

聊天机器人与翻译:文本转为数值后,经过多个隐藏层逐步精炼「词义 → 句意 → 回答方向」。ChatGPT 经过数十个隐藏层(Transformer 块)来生成回答。

语音识别:「声波 → 频率特征 → 音素 → 词 → 句子」每个阶段的转换都经过隐藏层。

按顺序计算:X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y。逐步计算每一步。如果空白在 H 中,只需算完第一段「线性+ReLU」。如果在 Y 中,先算 H 再算第二段。

ReLU 注意点:当线性结果(W·输入+b)为负数时,ReLU 会将其变为 0。到下一层时该值为 0,对应项完全不起作用——可以直接忽略。这是隐藏层题目的常见关键点。

空白在 W 或 b 中:隐藏层题目有两段(两次线性+激活)。先确认空白属于哪一段,如果已知那一段的输入和输出,就可以只用那一段的方程来求解。

隐藏层对输入做线性变换(WX+bW \cdot X + b)和 ReLU 得到中间表示 H,再做一次线性变换和 ReLU 得到最终输出 Y。

X
3
1
W₁
2
-1
-1
1
b₁
0
1
线性
5
-1
ReLU
H
5
0
W₂
1
1
0
1
b₂
1
-1
线性
6
-1
ReLU
Y
6
0

第1层: H = ReLU(W₁·X + b₁)

线性₁ = (W₁ 第1行·X)+b₁[0] = (2×3 + -1×1) + (0) = 5 → ReLU = 5
线性₂ = (W₁ 第2行·X)+b₁[1] = (-1×3 + 1×1) + ((1)) = -1 → ReLU = 0

第2层: Y = ReLU(W₂·H + b₂)

线性₁ = (W₂ 第1行·H)+b₂[0] = (1×5 + 1×0) + (1) = 6 → ReLU = 6
线性₂ = (W₂ 第2行·H)+b₂[1] = (0×5 + 1×0) + ((-1)) = -1 → ReLU = 0

题目

在带隐藏层的前向传播 X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y 中填入空白(?)处。

X
3
0
W₁
1
2
b₁
2
线性
5
ReLU
H
W₂
-2
b₂
0
线性
-10
ReLU
Y
0
1 / 20