余弦衰减(Cosine Decay)
📌 适用于:长时间训练,避免学习率下降过快,提高最终收敛性能。
import paddle
# 初始学习率
initial_lr = 0.1
# 总训练步数
total_steps = 10000
# 余弦衰减
lr_scheduler = paddle.optimizer.lr.CosineAnnealingDecay(learning_rate=initial_lr, T_max=total_steps)
# 绑定到优化器
optimizer = paddle.optimizer.Adam(learning_rate=lr_scheduler, parameters=model.parameters())
大约 3 分钟