激活函数与正则化 - 深度学习核心技术

激活函数家族 Activation Function Family

ReLU

Rectified Linear Unit

f(x) = max(0,x)

优势 Advantages

• 计算高效
• 缓解梯度消失
• 稀疏激活

挑战 Challenges

• 死亡神经元
• 非零中心
• 梯度爆炸风险

Sigmoid

σ(x) = 1/(1+e^(-x))

输出范围

(0, 1)

应用场景

二分类输出层

Tanh

tanh(x) = (e^x - e^(-x))/(e^x + e^(-x))

输出范围

(-1, 1)

特性

零中心对称

Leaky ReLU

f(x) = max(0.01x, x)

改进点

解决死亡神经元

负值斜率

0.01

Swish

f(x) = x × σ(x)

特点

平滑非单调

性能

深层网络表现优异

正则化技术 Regularization Techniques

Dropout

训练阶段随机关闭神经元

推理阶段使用完整网络

常用比例 0.3 - 0.5

Batch Norm

归一化公式

y = γ(x-μ)/σ + β

γ, β

可学习参数

μ, σ

批次统计

L1 正则化

惩罚项

λ Σ|w_i|

效果

产生稀疏权重

L2 正则化

惩罚项

λ Σw_i²

效果

权重衰减

激活函数

神经激活

梯度优化

过拟合防护