Chapter 10
宽度(每层神经元数)
单层中神经元数量多。
按章节的深度学习图示
每完成一章,下方图示会逐步填满。这是目前的结构。
一层的神经元个数就是宽度。越宽该层能同时表示的特征越多。
深度学习中的宽度
宽度指一层中有多少个神经元。神经元越多(越宽)= 该层能同时表达更多特征。例如 1 个神经元 = 1 个特征;256 个神经元 = 一次捕捉 256 个特征。
类比:考试只有 1 题只能考查一项能力,100 题就能同时考查多种能力。同样地,更宽的层在一步内能处理更多样的信息。
不同层可以有不同宽度。例如「1 → 2 → 4 → 8」(逐渐变宽)或「256 → 128 → 64」(逐渐变窄)都是常见的设计,取决于具体用途。
深度(层数) 和宽度(每层神经元数) 共同决定模型的总规模(参数量)。同样的参数量,可以选择「又深又窄」或「又浅又宽」——这一选择对性能影响很大。
宽度越大意味着每层同时处理更多特征,但也增加计算量和显存开销。过宽则有过拟合(死记训练数据)的风险。
实际中常用瓶颈设计:输入和输出保持窄,中间变宽。这样宽层提取关键特征,其余部分保持压缩。ResNet 和 Transformer 都用了这种技巧。
图像识别(CNN):每层的通道数(特征图数量)就是宽度。从 3 通道(RGB)开始,逐层增宽到 64 → 128 → 256 → 512 通道,提取越来越多样的特征。
聊天机器人与翻译(Transformer):隐藏维度(如 768、1024、4096)是每层同时处理的数的个数(即宽度)。GPT-4 等大模型的维度达数千——非常宽。
推荐系统:「用户向量 256 维」意味着宽度 256,包含 256 个特征(年龄、偏好、观看记录等转为数值),维度越高推荐越精准。
逐渐变宽时每层公式不变:Linear(W·输入+b)→ ReLU。确定空白所属的层和神经元,用该层的输入和 W 的对应行、b 的对应项来计算。
注意 W 的维度:层间宽度变化时,W 的大小也会变。W 为(当前层宽度 × 上一层宽度),找到空白对应神经元的那一行,与上一层输出做内积再加 b。
逐层计算:和深度题一样,先把前面层的输出算完再算下一层。别忘了每层的 ReLU(负值变 0)。
宽度指一层中神经元数量多。层越宽,能同时表达的特征越多;每层用 Linear & ReLU 计算。
第 1 层(宽度 2): H = ReLU(W₁·X + b₁)
第 2 层(宽度 4): Y = ReLU(W₂·H + b₂)
题目
在层逐渐变宽的前向传播(每层 Linear & ReLU)中填入空白(?)处。