Chapter 10

宽度(每层神经元数)

单层中神经元数量多。

按章节的深度学习图示

每完成一章,下方图示会逐步填满。这是目前的结构。

X1H1H2H1H2H3H4Y1Y2Y3Y4Y5Y6Y7Y8宽度 11 个神经元宽度 22 个神经元宽度 44 个神经元宽度 88 个神经元

一层的神经元个数就是宽度。越宽该层能同时表示的特征越多。

深度学习中的宽度

宽度一层中有多少个神经元。神经元越多(越宽)= 该层能同时表达更多特征。例如 1 个神经元 = 1 个特征;256 个神经元 = 一次捕捉 256 个特征。

类比:考试只有 1 题只能考查一项能力,100 题就能同时考查多种能力。同样地,更宽的层在一步内能处理更多样的信息

不同层可以有不同宽度。例如「1 → 2 → 4 → 8」(逐渐变宽)或「256 → 128 → 64」(逐渐变窄)都是常见的设计,取决于具体用途。

深度(层数)宽度(每层神经元数) 共同决定模型的总规模(参数量)。同样的参数量,可以选择「又深又窄」或「又浅又宽」——这一选择对性能影响很大。

宽度越大意味着每层同时处理更多特征,但也增加计算量和显存开销。过宽则有过拟合(死记训练数据)的风险。

实际中常用瓶颈设计:输入和输出保持窄,中间变宽。这样宽层提取关键特征,其余部分保持压缩。ResNet 和 Transformer 都用了这种技巧。

图像识别(CNN):每层的通道数(特征图数量)就是宽度。从 3 通道(RGB)开始,逐层增宽到 64 → 128 → 256 → 512 通道,提取越来越多样的特征

聊天机器人与翻译(Transformer)隐藏维度(如 768、1024、4096)是每层同时处理的数的个数(即宽度)。GPT-4 等大模型的维度达数千——非常宽。

推荐系统:「用户向量 256 维」意味着宽度 256,包含 256 个特征(年龄、偏好、观看记录等转为数值),维度越高推荐越精准。

逐渐变宽时每层公式不变:Linear(W·输入+b)→ ReLU。确定空白所属的层和神经元,用该层的输入W 的对应行、b 的对应项来计算。

注意 W 的维度:层间宽度变化时,W 的大小也会变。W 为(当前层宽度 × 上一层宽度),找到空白对应神经元的那一,与上一层输出做内积再加 b。

逐层计算:和深度题一样,先把前面层的输出算完再算下一层。别忘了每层的 ReLU(负值变 0)。

宽度指一层中神经元数量多。层越宽,能同时表达的特征越多;每层用 Linear & ReLU 计算。

输入 X
2
Linear & ReLU(第 1 层,宽度 2)
W₁
1
1
+
b
0
0
=
线性
2
2
ReLU
H
2
2
Linear & ReLU(第 2 层,宽度 4)
W₂
1
0
0
1
1
0
0
1
+
b
0
0
0
0
=
线性
2
2
2
2
ReLU
Y
2
2
2
2

第 1 层(宽度 2): H = ReLU(W₁·X + b₁)

H₁ = (W₁ 第1行·X)+b₁[0] = 1×2 + 0 = 2 → ReLU = 2
H₂ = (W₁ 第2行·X)+b₁[1] = 1×2 + (0) = 2 → ReLU = 2

第 2 层(宽度 4): Y = ReLU(W₂·H + b₂)

Y₁ = (W₂ 第1行·H)+b₂[0] = 1×2+0×2+0 = 2 → ReLU = 2
Y₂ = (W₂ 第2行·H)+b₂[1] = 0×2+1×2+0 = 2 → ReLU = 2
Y₃ = (W₂ 第3行·H)+b₂[2] = 1×2+0×2+0 = 2 → ReLU = 2
Y₄ = (W₂ 第4行·H)+b₂[3] = 0×2+1×2+0 = 2 → ReLU = 2

题目

在层逐渐变宽的前向传播(每层 Linear & ReLU)中填入空白(?)处。

输入 X
1
W
2
b
1
线性
3
ReLU
A
3
W
0
1
b
0
-1
线性
0
ReLU
Y
0
2
1 / 20