Chapter 10

宽度（每层神经元数）

单层中神经元数量多。

每完成一章，下方图示会逐步填满。这是目前的结构。

一层的神经元个数就是宽度。越宽该层能同时表示的特征越多。

深度学习中的宽度

宽度指一层中有多少个神经元。神经元越多（越宽）= 该层能同时表达更多特征。例如 1 个神经元 = 1 个特征；256 个神经元 = 一次捕捉 256 个特征。

类比：考试只有 1 题只能考查一项能力，100 题就能同时考查多种能力。同样地，更宽的层在一步内能处理更多样的信息。

不同层可以有不同宽度。例如「1 → 2 → 4 → 8」（逐渐变宽）或「256 → 128 → 64」（逐渐变窄）都是常见的设计，取决于具体用途。

深度（层数） 和宽度（每层神经元数） 共同决定模型的总规模（参数量）。同样的参数量，可以选择「又深又窄」或「又浅又宽」——这一选择对性能影响很大。

宽度越大意味着每层同时处理更多特征，但也增加计算量和显存开销。过宽则有过拟合（死记训练数据）的风险。

实际中常用瓶颈设计：输入和输出保持窄，中间变宽。这样宽层提取关键特征，其余部分保持压缩。ResNet 和 Transformer 都用了这种技巧。

图像识别（CNN）：每层的通道数（特征图数量）就是宽度。从 3 通道（RGB）开始，逐层增宽到 64 → 128 → 256 → 512 通道，提取越来越多样的特征。

聊天机器人与翻译（Transformer）：隐藏维度（如 768、1024、4096）是每层同时处理的数的个数（即宽度）。GPT-4 等大模型的维度达数千——非常宽。

推荐系统：「用户向量 256 维」意味着宽度 256，包含 256 个特征（年龄、偏好、观看记录等转为数值），维度越高推荐越精准。

逐渐变宽时每层公式不变：Linear（W·输入+b）→ ReLU。确定空白所属的层和神经元，用该层的输入和 W 的对应行、b 的对应项来计算。

注意 W 的维度：层间宽度变化时，W 的大小也会变。W 为（当前层宽度 × 上一层宽度），找到空白对应神经元的那一行，与上一层输出做内积再加 b。

逐层计算：和深度题一样，先把前面层的输出算完再算下一层。别忘了每层的 ReLU（负值变 0）。

宽度指一层中神经元数量多。层越宽，能同时表达的特征越多；每层用 Linear & ReLU 计算。

输入 X

↓

Linear & ReLU（第 1 层，宽度 2）

W₁

线性

ReLU

↓

Linear & ReLU（第 2 层，宽度 4）

W₂

线性

ReLU

第 1 层（宽度 2）: H = ReLU(W₁·X + b₁)

H₁ = (W₁ 第1行·X)+b₁[0] = 1×2 + 0 = 2 → ReLU = 2

H₂ = (W₁ 第2行·X)+b₁[1] = 1×2 + (0) = 2 → ReLU = 2

第 2 层（宽度 4）: Y = ReLU(W₂·H + b₂)

Y₁ = (W₂ 第1行·H)+b₂[0] = 1×2+0×2+0 = 2 → ReLU = 2

Y₂ = (W₂ 第2行·H)+b₂[1] = 0×2+1×2+0 = 2 → ReLU = 2

Y₃ = (W₂ 第3行·H)+b₂[2] = 1×2+0×2+0 = 2 → ReLU = 2

Y₄ = (W₂ 第4行·H)+b₂[3] = 0×2+1×2+0 = 2 → ReLU = 2

在层逐渐变宽的前向传播（每层 Linear & ReLU）中填入空白(?)处。

输入 X

线性

ReLU

-1

线性

ReLU

1 / 20