神经网络调参技巧：warmup策略|电子爱好者

admin管理员组
文章数量:1658731

有一些论文对warmup进行了讨论，使用 SGD 训练神经网络时，在初始使用较大学习率而后期改为较小学习率在各种任务场景下都是一种广为使用的做法，在实践中效果好且最近也有若干文章尝试对其进行了理论解释。例如《On Layer Normalization in the Transformer Architecture》等，论文中作者发现Post-LN Transformer在训练的初始阶段，输出层附近的期望梯度非常大，所以没有warm-up的话模型优化过程就会非常不稳定。

虽然在实践中效果好且最近也有若干文章尝试对其进行了理论解释，但到底为何有效，目前还没有被充分证明。

Transformer中的warm-up可以看作学习率 lr 随迭代数 t 的函数：

学习率 lr 会以某种方式递减，学习率从0开始增长，经过 Twarmup 次迭代达到最大。论文中对Adam，SGD等有无warmup做了实验，

可以看到，warmup增加了训练时间，同时在最初阶段使用较大的学习率会导致Loss偏大，对模型的训练的影响是巨大的。warmup在这里对SGD是非常重要的。

Rectified Adam针对warmup前期数据样本不足导致的biased variance的问题提出了解决方案，论文中实验结果看到还是有一定效果的。RAdam 由随机初始化带来的 Variance 比较小。即使隔离掉 warmup 部分的影响后Variance 也是要比 Adam 小的。

class AdamWarmup(Optimizer):
    # DOTA
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, warmup = 0):
        if not 0.0 <= lr:
            raise ValueError("Invalid learning rate: {}".format(lr))
        if not 0.0 <= eps:
            raise ValueError("Invalid epsilon value: {}

本文标签：神经网络策略技巧 warmup

版权声明：本文标题：神经网络调参技巧：warmup策略内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729814959a1213771.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

神经网络调参技巧：warmup策略

更多相关文章

(Dos)BAT命令入门与高级技巧详解（转）

QQ群排名优化技巧

电脑自带的应用商店连接不到服务器,win10系统内置账号无法登录应用商店的恢复技巧...

控制面板设置java_win10系统打开java控制面板的具体技巧

直接从U盘里删除文件能找回吗？不慌！教你4种恢复技巧

手机怎么恢复回收站清空的照片？2个技巧大公开（适用各类安卓机）

回收站清空的文件怎么恢复，必学技巧！

回收站清空后的数据拯救与防范策略

误删也能找！清空回收站后文件找回技巧

算法设计技巧与分析（五）：贪心算法(The Greedy Approach)

【WinPE的几则制作技巧】

MacBook Air发热严重怎么办？使其冷却的5个技巧和窍门

百度推广怎么调整计算机优先,百度竞价优化关于帐户层级的一些设置方法与技巧...

通过keras例子理解LSTM 循环神经网络(RNN)

mac OS技巧 两个方面解决Mac运行越来越慢的问题

C++ 卡常技巧

Big Sur系统更新后，运行变慢？使macOS Big Sur更快运行的12个技巧

清理C盘缓存的垃圾，专业清理C盘缓存垃圾的步骤与策略

安卓cpu调速器和IO策略

msvcp120d.dll报错解析：原因、影响及解决策略

发表评论

推荐文章

本地Hyper-V安装windows1011启用增强会话后无法登录

Linux系统下OpenDDS安装及测试2021-07-10

电脑安装Winserver2016无法安装网卡驱动（解决办法）

win10+ubuntu双系统配置

快速解决sncgss32.dll错误：从问题诊断到彻底修复的全面指南

热门文章

电脑购买参数配置

win7一打开计算机就卡,win7设置虚拟内存后导致电脑卡怎么办,几个小技巧解决

计算机用cad卡,CAD总是很卡？难道真的是电脑的问题吗？我觉得不是

catia V5R21 32位打开大型装配体非常卡，亲测可用解决方案

WIN10只剩飞行模式的一种解决方法

2022年哪些浏览器安全、速度快、好用又不卡？

单核浏览器和双核浏览器有什么区别，哪个好用？

js如何判断是手机app，还是浏览器

设置透明背景和转换图片格式的技巧

联想ThinkPad笔记本怎么开启vt_ThinkPad笔记本开启vt虚拟化教程

最新文章

优启通桌面只有一个计算机,优启通图文详细使用教程,优启通使用教程

联想ThinkPad笔记本怎么开启vt_ThinkPad笔记本开启vt虚拟化教程

msvcp100.dll丢失怎样修复-一键解决msvcp100.dll丢失问题

Win11更新补丁导致应用程序崩溃错误代码0xc0000135怎么解决？

修电脑大全，学会不求人

如何重装win7旗舰版系统(怎么重装win7旗舰版系统)

华硕主板怎么开启vt_华硕主板开启vt虚拟化教程(intel和amd开启方法)

技嘉主板怎么开启TPM_技嘉主板开启TPM2.0教程

电脑出现蓝屏提示错误代码0xc000000f，0xc000000f进不了系统怎么修复

解析ocr.dll错误原因及其影响：全面解决方法

win7下微软自带语音识别的系统命令（二）

【电脑知识】自学维修电脑

安全管理信息系统的特点有360终端安全管理系统（一体化版）_新手漏洞技巧

libcef.dll缺失警报：解锁程序运行障碍的多元策略与实战解决之道

找不到d3dx9_43.dll,无法继续执行代码怎么解决

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

mac OS技巧两个方面解决Mac运行越来越慢的问题

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载