【优化器】带动量 Momentum 的SGD算法

张开发

• 2026/4/14 16:30:54 • 15 分钟阅读

分享文章

思想让参数更新具有惯性每一步更新都是由前面梯度累积v vv和当前点梯度g gg组合而成公式累计梯度动量更新v ← α v ( 1 − α ) g v \leftarrow \alpha v (1-\alpha) gv←αv(1−α)g参数更新x ← x − η ⋅ v x \leftarrow x - \eta \cdot vx←x−η⋅v其中α \alphaα为动量参数v vv为累计梯度g gg为当前梯度η \etaη为学习率优点加快收敛能帮助参数在正确的方向上加速前进可以帮助跳出局部最小值实验一损失函数f ( x ) 0.1 x 1 2 2 x 2 2 f(x) 0.1x_1^2 2x_2^2f(x)0.1x122x22初始值x 1 − 5 x_1 -5x1−5x 2 − 2 x_2 -2x2−2 学习率η 0.4 \eta 0.4η0.4我们使用不带动量的传统梯度下降法观察下降过程预期分析因为x 1 x_1x1和x 2 x_2x2的系数分别为 0.1 和 2。这就使得x 1 x_1x1和x 2 x_2x2的梯度相差一个量级如果使用相同的学习率x 2 x_2x2的更新幅度会较x 1 x_1x1的更大些importnumpyasnpimportmatplotlib.pyplotaspltdefloss_func(x1,x2):# 定义目标函数return0.1*x1**22*x2**2x1,x2-5,-2eta0.4num_epochs20result[(x1,x2)]forepochinrange(num_epochs):gd10.2*x1 gd24*x2 x1-eta*gd1 x2-eta*gd2 result.append((x1,x2))plt.plot(*zip(*result),-o,color#ff7f0e)x1,x2np.meshgrid(np.arange(-5.5,1.0,0.1),np.arange(-3.0,1.0,0.1))plt.contour(x1,x2,loss_func(x1,x2),colors#1f77b4)plt.title(learning rate {}.format(eta))plt.xlabel(x1)plt.ylabel(x2)plt.show()结果分析与预想一致使用相同的学习率x 2 x_2x2的更新幅度会较x 1 x_1x1的更大些变化快得多而x 1 x_1x1收敛速度太慢实验二依然使用不带动量的梯度下降算法将学习率设置为 0.6更新过程x 1 ← x 1 − 0.06 x 1 x_1 \leftarrow x_1 - 0.06x_1x1←x1−0.06x1x 2 ← x 2 − 2.4 x 2 x_2 \leftarrow x_2-2.4x_2x2←x2−2.4x2更新过程如下这时我们会陷入一个两难的选择如果我们选择小的学习率x 1 x_1x1收敛速度慢如果我们选择大的学习率x 1 x_1x1方向会收敛很快但在x 2 x_2x2方向不会收敛实验三我们使用带动量的梯度下降法将历史的梯度考虑在内动量参数设置为 0.5 学习率设置为0.4累计梯度更新v ← α v ( 1 − α ) g v \leftarrow \alpha v (1-\alpha) gv←αv(1−α)g权重更新x ← x − η ⋅ v x \leftarrow x - \eta \cdot vx←x−η⋅vimportnumpyasnpimportmatplotlib.pyplotaspltdefloss_func(x1,x2):# 定义目标函数return0.1*x1**22*x2**2x1,x2-5,-2v1,v20,0eta,alpha0.4,0.5num_epochs20result[(x1,x2)]forepochinrange(num_epochs):v1alpha*v1(1-alpha)*(0.2*x1)v2alpha*v2(1-alpha)*(4*x2)x1-eta*v1 x2-eta*v2 result.append((x1,x2))plt.plot(*zip(*result),-o,color#ff7f0e)x1,x2np.meshgrid(np.arange(-5.5,1.0,0.1),np.arange(-3.0,1.0,0.1))plt.contour(x1,x2,loss_func(x1,x2),colors#1f77b4)plt.xlabel(x1)plt.ylabel(x2)plt.show()即使我们将学习率设置为 0.6 x 2 x_2x2的梯度也不会发散了参考连接https://www.bilibili.com/video/BV1jh4y1q7ua/?spm_id_from333.1387.favlist.content.clickvd_sourcecf0b4c9c919d381324e8f3466e714d7a

【优化器】带动量 Momentum 的SGD算法

最新文章

fanuc机器人通过pr寄存器引导焊缝

别再乱用Aggregate模型了！Apache Doris三种数据模型实战选型避坑指南

VQA系统训练成本直降67%？2026奇点大会发布轻量化视觉编码器ViT-Lite（附GitHub Star破万的私有化部署脚本）

从“理想”到“传播”：手把手教你搞定ICC II CTS后的时钟延迟更新与SDC约束处理

高效备份微信聊天记录：WeChatExporter一站式解决方案

UE5打包后没声音？手把手教你用C++正确加载和播放音频（避坑StaticLoadObject）

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

第一篇：微信云开发宠物上门预约小程序：核心架构与实现思路

Windows 10/11下Go语言环境配置全攻略（含国内镜像加速下载）

从TCP到RPC：4个分布式通信协议的进化故事（附面试实例+避坑指南）

EndNote X9高效文献管理：从安装到实战应用指南

2026奇点大会多模态翻译系统压力测试全记录：单节点并发12,800路视频流翻译，GPU显存占用下降41%的关键编译策略

AgentRAG：让Java企业AI从“会回答”升级为“会办

OpenClaw的skills技能管理新手实战笔记

高通QCOM Camera Pipeline 可视化工具：从XML到交互式图谱的工程实践

Linear Probing：大模型微调中的“特征质量探测器”

蓝驰创投完成39亿元第四期双币基金募资：已投银河通用与智元

5分钟搞定Windows开机画面：HackBGRT终极定制指南

DownGit：终极GitHub资源下载神器，三步搞定任意文件与文件夹打包