Chapter 04

激活函数（非线性）

将神经元输出变为非线性的函数。

每完成一章，下方图示会逐步填满。这是目前的结构。

输出 Y 随输入 X 非线性变化的典型激活函数。（3 级量化版）

Y = Sigmoid(X)

Y = ReLU(X)

Y = Tanh₃(X)

节点值经过 ReLU 或 σ 后非线性变化。最后一层 Y1,Y2,Y3 就是这样得到的。

深度学习中的激活函数

激活函数把神经元的原始输出（加权和）转换到特定范围或形状。最常见的有 ReLU（负值变 0，正值不变）、Sigmoid（压缩到 0～1）和 Tanh（压缩到 −1～1）。

可以类比为水龙头：水（信号）流入后，要么「只放过超过阈值的部分（ReLU）」，要么「流量太大时自动减弱（Sigmoid、Tanh）」。这种转换使输出更适合传给下一层。

ReLU 最流行，因为计算简单（正值保留、负值归零），训练速度快。Sigmoid 用于需要类似概率输出的场景，Tanh 用于需要以零为中心的场景。

无论堆叠多少次「乘加」（线性）运算，结果都等于做了一次「乘加」。 正如把直线接直线还是直线，仅靠线性运算永远无法表达曲线和复杂模式。

激活函数加入了弯折（非线性）。有了弯折，多层堆叠才能组合出曲线和复杂边界，模型才能学习图像、语音、文本中的规律。

没有激活函数的话，网络再深也只能做一条直线能做的事。激活函数是让深度学习真正「深」起来的关键成分。

图像识别：每层做完 W·X + b 后，ReLU 把无关特征（负值）清零，保留有用特征（正值）传给下一层，逐步提取「眼睛」「耳朵」「轮子」等。

聊天机器人与翻译：隐藏层用 ReLU 或 GELU（更平滑的变体）引入非线性，最后一层用 Sigmoid（是/否判断）或 Softmax（多选一）来生成答案。

语音识别与自动驾驶：声波或摄像头图像转为数值后，经过多层「线性 + 激活」来判断「这是什么词」或「这是什么物体」。没有激活函数就无法做出如此复杂的判断。

表里先看 X 在哪个区间，Y 就定了。

Y = ReLU(X)

X ~ Y

-2

1.5

Y = Sigmoid(X)

X ~ Y

-2

0.5

Y = Tanh₃(X)

X ~ Y

-2

-1

根据给定的激活函数（Sigmoid、ReLU、Tanh₃）求 X 对应的 Y，并填入空格(?)处。

Y = ReLU(X)

X ~ Y

-3

-1

1 / 20