深度学习优化算法大全系列7:NAdam，算法选择，调参|电子爱好者

admin管理员组
文章数量:1642447

1.NAdam集大成

前面我们讲Adam的时候，提到Adam是Adaptive+Momentum。更前面的时候，我们还提到Nesterov，如果把Nesterov跟Adam结果，就是我们最后的集大成者NAdam。

class Nadam(Optimizer):
  """Nesterov Adam optimizer.

  Much like Adam is essentially RMSprop with momentum,
  Nadam is Adam RMSprop with Nesterov momentum.

  Default parameters follow those provided in the paper.
  It is recommended to leave the parameters of this optimizer
  at their default values.

  Arguments:
      lr: float >= 0. Learning rate.
      beta_1/beta_2: floats, 0 < beta < 1. Generally close to 1.
      epsilon: float >= 0. Fuzz factor. If `None`, defaults to `K.epsilon()`.
  """

  def __init__(self,
               lr=0.002,
               beta_1=0.9,
               beta_2=0.999,
               epsilon=None,
               schedule_decay=0.004,
               **kwargs):
    super(Nadam, self).__init__(**kwargs)
    with K.name_scope(self.__class__.__name__):
      self.iterations = K.variable(0, dtype='int64', name='iterations')
      self.m_schedule = K.variable(1., name='m_schedule')
      self.lr = K.variable(lr, name='lr')
      self.beta_1 = K.variable(beta_1, name='beta_1')
      self.beta_2 = K.variable(beta_2, name='beta_2')
    if epsilon is None:
      epsilon = K.epsilon()
    self.epsilon = epsilon
    self.schedule_decay = schedule_decay
...

tensorflow中Nadam源码，开篇两句话就揭示了本质：
1.Adam的本质是带动量的RMSprop。
2.Nadam是带Nesterov动量的Adam RMSprop。

其 β 1 , β 2 \beta_1, \beta_2 β1,β2等参数与Adam的含义与数值都是一致的。

2.如何选择优化算法

1.如果数据稀疏，一般自适应算法比较好，比如AdaGrad, AdaDelta, RMSProp, Adam等。
2.一般来说，Adam会是一个不错的选择。
3.可以在训练初始阶段，采用Adam提升收敛速度，后期在切换到SGD进行调优。

参考文献

https://zhuanlan.zhihu/p/32338983

本文标签：算法深度系列大全调参

版权声明：本文标题：深度学习优化算法大全系列7:NAdam，算法选择，调参内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1729341278a1197563.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

c 语言编程游戏代码大全,C语言编程游戏代码

1天前

C语言编程的小游戏,助你提高对计算机语言的掌握。 #include#include#include#include#include#define L 1 #define LX 15 #define LY 4 static

html5游戏网页代码大全,HTML网页代码大全

1天前

1)贴图： 2)加入连接：写上你想写的字 1)贴图： 2)加入连接：写上你想写的字 3)在新窗口打开连接：写上要写的字消除连接的

python游戏代码大全可复制,python最简单游戏代码

1天前

大家好，小编来为大家解答以下问题，python游戏编程入门游戏代码，python游戏代码大全可复制，现在让我们一起来看看吧！ 哈喽

赛车游戏代码大全html,赛车游戏代码

1天前

该楼层疑似违规已被系统折叠隐藏此楼查看此楼 Co nst D100方格的宽度 Const BT3000跑道底部的 y 坐标 Dim l1(22) As Integer每层跑道左边有几个方块 Dim l2(22) As

python游戏代码大全可复制,python简单的小游戏代码

1天前

本篇文章给大家谈谈python游戏编程入门游戏代码，以及python游戏代码大全可复制，希望对各位有所帮助，不要忘了收藏本站喔。大家好，小编来为大家解

AndroidStudio 插件大全（转）

23小时前

转自：http:blog.csdnalpha58articledetails62881144 现在Android的开发者基本上都使用android Studio进行开发(如果你还在使用eclipse那也行&

BugKuCTF-杂项-writeup 大全？

23小时前

最近玩了一个 CTF 的练习平台-----BugkuCTF 下面会把一些题目的方法记录下来先讲一下杂项 1.签到题只要关注公众号就可以得到 flag---开胃菜 2.这是一张单纯的图片网站上打开是无法加载&#xff

python + mitmproxy 脚本大全（附源码+实例）

23小时前

From：https:blog.wolfogrepostsusage-of-mitmproxy http:wwwblogsgrandlulup9525417.html mit

Office 365 On MacOS 系列——安装 Office 2016 for Mac

19小时前

序言大概是从 Office 365 诞生起，看着她一天天地长大，从丑小鸭变成了白天鹅，从只支持 Windows 安装到全平台支持，可以说每一天、每一分

深度学习论文: Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions

19小时前

深度学习论文: Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions及其PyTorch实现 Global Attenti

python3 RSA算法生成秘钥对、文件加密解密

14小时前

RSA文件加密解密生成秘钥对文件加密文件解密生成秘钥对 staticmethoddef create_rsa_keys(codenooneknows):# 生成 2048 位的 RSA 密钥keyRSA.generate(2048)

(转)中国大学改名大全2007最新版(笑掉大牙)

7小时前

大学改名原因：其实，大学改名热潮不是这几年才有的，早在上世纪90年代初期，已经掀起过一轮小高潮。当时正值高等教育管理体制改革启动&#xff0

Hyperledger系列（四） Fabric 1.0架构介绍

4小时前

简介本文主要介绍了Fabric1.0中的重大变化和架构。Fabric1.0版本中，把节点分为peers节点（维护state、ledger）和orderers节点（负责对ledger中的transactions达成共识）。在Fabric0

Exchange Server 2016管理系列课件37.通过搜索传输日志查看邮件收发状况

4小时前

应用场景查询用户邮件是否成功投递查询用户邮件投递失败的原因协助分析产生邮件退信的原因（邮件可能根本没有到我们的服务器） powershell查看传输日志常见EVENTID的含义: DELI

Linux防火墙命令大全

3小时前

原：Linux之 linux7防火墙基本使用及详解_张冲andy的博客-CSDN博客 1、firewalld的基本使用启动： systemctl start firewalld 查看状态&

数据结构与算法分析——第3章考试题

2小时前

判断题 1-1 Run the following operations on a stack S: Push(S,1), Push(S,2), Pop(S), Push(S,3), Pop(S), Pop(S). The output

深度学习优化算法大全系列6:Adam

1小时前

1.Adam是啥前面铺垫了这么多，终于铺垫到Adam了。作为最常用的优化器之一，很多同学可能都听说过Adam的名字，但是Adam是什么意思可能并不清楚。Adam其实包括两

世界货币符号大全

1小时前

原文地址为： 世界货币符号大全 Country and Currency国家和货币 Currency 货币Code 码 Graphic图 Image图片 Font : 字体 ： Code

深度学习GPU卡的理解(一)

1小时前

一直不是很清楚到底买什么NVIDIA卡合适？对于硬件小白的我来说，买显存最大的没问题，并不清楚什么GPU适合什么深度模型。碰巧找到一个懂GPU的行家，由