Chapter 08

隐藏层（看不见的层）

位于输入层与输出层之间的层。

按章节的深度学习图示

每完成一章，下方图示会逐步填满。这是目前的结构。

我们只看到输入(X)和输出(Y)。中间那层只在网络内部使用，所以是隐藏层。

可见: 输入→不可见: 隐藏(H)→可见: 输出

数值沿输入→隐藏层→输出流动。隐藏层是我们看不到的内部表示。

深度学习中的隐藏层

隐藏层是输入与输出之间的中间阶段。用户只看到输入（如照片）和输出（如「狗」），但在中间，隐藏层创造出「隐藏特征」。

流程：X → Linear(W₁·X+b₁) → ReLU → H（隐藏表示）→ Linear(W₂·H+b₂) → ReLU → Y（输出）。H 是隐藏层的结果，包含压缩后的输入「关键特征」。

类比：你看到一张照片说出「狗」，大脑经历了「颜色 → 边缘 → 眼睛/鼻子/耳朵 → 狗！」这些中间思考过程就是隐藏层。隐藏层的神经元数（宽度）决定了能捕捉多少种不同特征。

隐藏层逐步汇总和变换输入数据。浅层捕捉简单特征（亮度、边缘），深层捕捉复杂特征（眼睛、轮子、字母）。

没有隐藏层，模型只能从输入直接映射到输出，只能表达非常简单的（线性）关系。有了隐藏层，就能学习复杂关系（曲线、多条件组合）。

隐藏层的神经元数（宽度） 和层数（深度） 决定模型的表达能力。太小 = 信息瓶颈、效果差；太大 = 过拟合（死记硬背而非真正学会）。

图像识别：「像素 → 边缘 → 纹理 → 物体部件（眼睛、轮子）→ 整体物体（狗、汽车）」这些阶段全是隐藏层。越深的层提取越抽象的特征。

聊天机器人与翻译：文本转为数值后，经过多个隐藏层逐步精炼「词义 → 句意 → 回答方向」。ChatGPT 经过数十个隐藏层（Transformer 块）来生成回答。

语音识别：「声波 → 频率特征 → 音素 → 词 → 句子」每个阶段的转换都经过隐藏层。

按顺序计算：X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y。逐步计算每一步。如果空白在 H 中，只需算完第一段「线性+ReLU」。如果在 Y 中，先算 H 再算第二段。

ReLU 注意点：当线性结果（W·输入+b）为负数时，ReLU 会将其变为 0。到下一层时该值为 0，对应项完全不起作用——可以直接忽略。这是隐藏层题目的常见关键点。

空白在 W 或 b 中：隐藏层题目有两段（两次线性+激活）。先确认空白属于哪一段，如果已知那一段的输入和输出，就可以只用那一段的方程来求解。

隐藏层对输入做线性变换( $W \cdot X + b$ )和 ReLU 得到中间表示 H，再做一次线性变换和 ReLU 得到最终输出 Y。

→

W₁

-1

b₁

→

线性

-1

ReLU

→

W₂

b₂

-1

→

线性

-1

ReLU

第1层: H = ReLU(W₁·X + b₁)

线性₁ = (W₁ 第1行·X)+b₁[0] = (2×3 + -1×1) + (0) = 5 → ReLU = 5

线性₂ = (W₁ 第2行·X)+b₁[1] = (-1×3 + 1×1) + ((1)) = -1 → ReLU = 0

第2层: Y = ReLU(W₂·H + b₂)

线性₁ = (W₂ 第1行·H)+b₂[0] = (1×5 + 1×0) + (1) = 6 → ReLU = 6

线性₂ = (W₂ 第2行·H)+b₂[1] = (0×5 + 1×0) + ((-1)) = -1 → ReLU = 0

题目

在带隐藏层的前向传播 X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y 中填入空白(?)处。

→

W₁

b₁

线性

ReLU

→

W₂

-2

b₂

线性

-10

ReLU

1 / 20