Self-critical Sequence Training|电子爱好者

admin管理员组
文章数量:1530517

Self-critical Sequence Training for Image Captioning是IBM研究团队在CVPR 2017上发表的一篇论文，主要介绍了一种基于self-critical思想的强化学习方法来训练序列生成模型。

论文背景

该论文的背景与上周介绍的Sequence Level Training with Recurrent Neural Networks一文相似，后者为解决主流的MLE训练方法中存在的exposure bias问题，提出了基于强化学习的MIXER (Mixed Incremental Cross-Entropy Reinforce)方法。
IBM的这篇论文虽然侧重于Image Captioning这一具体问题，但仍然可以认为是针对MIXER的改进。

REINFORCE with a Baseline

在REINFORCE算法中，训练的目标函数是最小化reward期望值的负值，即

reward函数通常是不可微的，但的梯度可以表示为：

然后我们可以利用Monte-Carlo的思想，根据policy采样出，计算出的近似值：

但这种基于Monte-Carlo采样的近似方法被认为具有较高的方差（high variance）。这是因为，采样的每一步都具有较大的随机性，使最终得到的样本之间差异巨大，导致reward具有高方差，尤其是在文本生成这类搜索空间较大的问题中。
示意图如下，每条轨迹代表一个采样序列，它们从同一个位置出发，却走到相距较远的终点。

这种高方差梯度估计的缺陷正是许多强化学习模型早期训练不稳的根源。
该问题的一个解决办法是加上baseline的约束，从而对reward进行一定程度上的“校正”：

其中的正是我们所说的baseline，理论上，为保持对梯度的无偏估计，可以是任意不依赖于的函数，这一结论由简单的数学推导得到：

在实际应用时，一般以reward平均值的估计函数作为baseline。如在MIXER中，baseline是一个简单的线性回归模型，通过优化均方误差得到，表示对reward平均值的估计。

Self-critical Sequence Training (SCST)

该论文提出的Self-critical Sequence Training (SCST)方法仅仅是对上述的baseline进行了修改。
在RNN模型中，对softmax输入项的梯度可具体推导为：

SCST把定义为“当前模型在测试阶段得到的reward”，即。
这样，梯度公式就是：

其中，测试阶段的序列通过greedy decoding得到，即

SCST的示意图为

这种baseline的定义有几种优势：

不必像MIXER那样另外训练一个模型来获取baseline。
通过利用测试阶段的reward进行“自我批判”（self-critical），SCST更好地鼓励了训练/测试的表现一致性。
实验证明，SCST的梯度方差比MIXER更低，在各测试指标上也都表现更佳。

本文标签： Critical sequence Training

版权声明：本文标题：Self-critical Sequence Training 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726269648a1063661.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Self-critical Sequence Training

论文背景

REINFORCE with a Baseline

Self-critical Sequence Training (SCST)

更多相关文章

开机报错0190: critical low-battery error的解决方案

Critical dependency: the request of a dependency is an expression（import）

记一个OpenCV低级错误 GStreamer-CRITICAL

TexStudio编译报错“Critical Package xeCJK Error: The xeCJK package requires XeTeX to function. ..._criti”

修复Critical dependency: the request of a dependency is an expression警告

UE4+Slua Critical error:Assertion failed: OffsetFromBase ＞= 0

oracle critical patch update,Oracle Critical Patch Update for October 2013

如何解决 Critical dependency: the request of a dependency is an expression ？

windows线程同步之关键段（critical section）

Gtk-CRITICAL **: IA__gtk_widget_style_get: assertion ‘GTK_IS_WIDGET (widget)‘ faile

found 7 vulnerabilities (5 low, 1 high, 1 critical) run `npm audit fix` to fix them, or `npm audit

Gtk-CRITICAL **: IA__gtk_widget_style_: assertion ‘GTK_IS_WIDGET (widget)‘ failed 解决方法

NameNode Last Checkpoint报错误[Checkpoint Critical]

Prometheus Node Critical 级别告警配置指南

mfc c++ 多线程同步 关键性代码段CRITICAL SECTION（二）

Critical error: #import: Cannot open file &quot;importstlvector.h&quot; for reading. -----gsoap

了解Oracle Critical Patch Update

HTML Critical Webpack Plugin 使用指南

HTML Critical Webpack Plugin 使用教程

Effective gene expression prediction from sequence by integrating long-range interactions

发表评论

推荐文章

戴尔原厂oem系统出厂系统安装教程

换了路由器的情况下登录黑群晖

ChatGPT提示词保姆级教程

关于安卓以及微软用户chatgpt上一篇文章如今第五点无法正常进入更新解决方法以及附加本地部署

AMD EPYC——CPU命名规则

热门文章

计算机不显示磁盘阵列,识别不到硬盘？bios中怎么改raid为ahci硬盘模式。

CodeforcesRound #689 (Div. 2, based on Zed Code Competition):1461B Find the Spruce

浏览器兼容和移动端适配方案

chrome浏览器打开网页排版错乱

宽带路由器及其设置

oracle10在w7下提示无法定位,Win7提示无法定位程序输入点 于动态链接库的原因及解决方法...

Windows10开机黑屏只有鼠标问题解决

JavaSE基础阶段学习笔记

Windows双系统启动时引导仍为单系统问题解决

windows系统win10将chrome加入环境变量的方法步骤

最新文章

win11浏览器默认主页如何设置

Win11 Excel文件变成白板图标怎么解决？

减少win11核显占用的内存怎么操作

win2012 r2 php mysql,在Windows Server2012 R2上安装WordPress PHP和MYSQL

Win11录屏数据保存在哪里？Win11录屏数据保存的位置

原版win7系统怎么安装,原版Win7系统的安装步骤

Win11显示麦克风未插上怎么办？Win11显示麦克风未插上的解决方法

Win11更改声音输出设备有什么方法？

Win11鼠标动不了如何恢复？Win11鼠标动不了恢复的方法

Win11磁盘清理在哪打开？

Win11隐藏输入法状态栏方法

Win10一键修复所有dll缺失的方法

Win11怎么把桌面文件路径改到D盘

Win11图标变暗怎么办？Win11图标变暗的解决方法

Win11小组件怎么添加待办事项？Win11添加待办事项小组件的方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

mfc c++ 多线程同步关键性代码段CRITICAL SECTION（二）

Critical error: #import: Cannot open file "importstlvector.h" for reading. -----gsoap

oracle10在w7下提示无法定位,Win7提示无法定位程序输入点于动态链接库的原因及解决方法...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载