优化算法

& 梯度下降 Optimization & Gradient Descent

梯度下降

Gradient Descent

动量优化

Momentum

自适应学习

Adaptive Learning

算法调度

Algorithm Scheduling

梯度下降变体 Gradient Descent Variants

BGD

Batch Gradient Descent

全量数据
起点 最优解

优势 Advantages

  • • 收敛稳定
  • • 梯度准确
  • • 理论保证

挑战 Challenges

  • • 计算开销大
  • • 内存需求高
  • • 更新速度慢

SGD

Stochastic Gradient Descent
更新方式
单样本
计算复杂度
O(1)
收敛特性
快速但有噪音

MBGD

Mini-Batch Gradient Descent
批次大小
32-512
平衡性
速度与稳定性

Momentum

v = βv + α∇J(θ)
动量系数
0.9
效果
加速收敛减少震荡

Nesterov

Nesterov Accelerated Gradient
预测性
提前计算梯度
收敛率
O(1/k²)

自适应优化器 Adaptive Optimizers

Adam

一阶动量 β₁ = 0.9
二阶动量 β₂ = 0.999
学习率 α = 0.001
更新公式
θ = θ - α·m̂/(√v̂ + ε)

AdamW

权重衰减解耦
θ = θ - α·(m̂/(√v̂ + ε) + λθ)
更稳定
训练过程
更好
泛化性能

RMSprop

核心思想
E[g²] = γE[g²] + (1-γ)g²
优势
解决Adagrad学习率衰减

Adagrad

自适应学习率
α/√(Σg²)
适用场景
稀疏数据优化

学习率调度 Learning Rate Scheduling

学习率调度策略对比

优化器收敛性能

阶梯衰减

固定间隔降低学习率

指数衰减

平滑指数递减

余弦退火

周期性重启优化

自适应调度

基于性能动态调整

性能对比分析 Performance Analysis

训练速度

Adam
RMSprop
SGD+M
SGD

稳定性

AdamW
Adam
RMSprop
SGD

泛化能力

SGD+M
AdamW
Adam
RMSprop