Double Q-learning|电子爱好者

admin管理员组
文章数量:1658762

在一些随机环境中，著名的强化学习算法Q-learning表现非常糟糕。这种糟糕的性能是由对动作值的过高估计造成的。这些过高估计是由于引入了正偏差，因为Q-learning使用最大动作值作为最大期望动作值的近义词。我们引入了一种替代方法来近似任何一组随机变量的最大期望值。所得到的双重估计器方法有时会低估而不是高估最大期望值。将双估计器应用到Q-learning中，构建了一种新的非策略强化学习算法double Q-learning。本文表明，新算法收敛于最优策略，并且在一些由于q学习的高估而表现不佳的情况下，它表现良好。

背景：

本文表明，由于对动作值的过大估计，Q-learning在随机mdp中的性能可能很差。

Contributions

Q-learning算法的一个重要方面在之前的工作中被忽视了:使用max算子来确定下一个状态的值可能会导致动作值的大幅高估。由于使用最大值作为最大期望值的近义词会产生积极的偏差，q学习可能会遭受很大的性能损失。本文提出一种备选的双估计器方法，以找到一组随机值的最大值的估计，并表明这有时会低估而不是高估最大期望值。我们用它来构建新的双q学习算法。

1.高估的原因：

2. Estimating the Maximum Expected Value

在本节中，我们分析两种寻找一组随机变量最大期望值近似值的方法。单估计器方法使用一组估计器的最大值作为近似。这种近似最大期望值的方法是有正偏差的，

（1）单估计器方法（Single Estimator）

所谓的单估计就是使用一组估计量的最大值作为近似值，

3. Double Q-learning算法

本文标签： Double Learning

版权声明：本文标题：Double Q-learning 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729813768a1213651.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Double Q-learning

更多相关文章

(2)The secrets of learning a new language

英语语法浅入-learning

Druid的double const condition

[Machine Learning for Trading] {ud501} Lesson 19: 02-09 The Fundamental Law of active portfolio mana...

Machine Learning for Computer Systems and Networking:A Survey ---综述阅读 对于计算机系统和网络的机器学习

36106 Machine Learning Algorithms and Applications Spring 2024Python

【CC++】C++将double类型小数以16进制格式打印出

Interference:Does learning new things block your old memories?(1)干扰:学习新东西会阻断旧记忆吗?(一)

transfer learning

Machine Learning - Neural Networks Representation Part I

Offline (Batch) Reinforcement Learning: A Review of Literature and Applications

精读FREE: Feature Refinement for Generalized Zero-Shot Learning

Learning to Rank: From Pairwise Approach to Listwise Approach论文笔记

Learning to Rank: From Pairwise Approach to Listwise Approach

论文阅读：HybridAlpha: An Efficient Approach for Privacy-Preserving Federated Learning

论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers

Deep Recurrent Q-Learning for Partially Observable MDPs翻译

1-Adversarial Learning for Semi-Supervised Semantic Segmentation

maching learning入门（四）

机器学习20：Transfer learning 迁移学习

发表评论

推荐文章

个人作业二-软件案例分析

Stable Diffusion AI绘画：从创意词汇到艺术图画的魔法之旅

flac格式歌曲如何转换成mp3格式，flac转mp3详细图文教程

Java垃圾回收

谈逻辑与数学界线之淡化

热门文章

windows 10配置nginx，node等为全局环境变量

windows10安装openssl环境并命令行调用openssl（不需要编译openssl源代码，快速安装）

X79主板支持的CPU 性能排行榜

gb和gib的区别_不同软硬件环境下NVMe SSD性能简测和一些SSD测试建议

苹果cms教程

QQ授权登陆 接入

Android studio 使用起来电脑很卡

win8系统下安装SQL2005(SQL Server 2005)图文教程

【格式转换】在线免费视频avi格式转换为mp4格式

ROS move_base 源码解析

最新文章

微软网站打不开_WIN系统必备，微软常用运行库合集2018（x86x64）

w ndows7升级的通知,坚持不升级的Win7 用户注意了，微软将这样对付你

linux换win7设置bios,预装win8win8.1改win7设置BIOS步骤方法汇总

计算机丢失120.dll,win7 64位旗舰版系统运行游戏提示计算机丢失mxvcp120.dll的解决方法...

kernelbase.dll故障如何修复，win7故障模块kernelbase的快速处理技巧

怎样给路由器设置密码

电脑win7语音怎么测试软件,win7话筒怎么测试 win7话筒测试方法【图文】

win7点击右键不能新建文件夹怎么办？win7右键不能新建文件夹解决方法

win7现在还能用吗_哪些配置的电脑还可以安装win7系统

win7未更新版本安装jdk8及以上版本报错

win7安装vs2015问题总结

win7下计算机假死,Win7系统电脑经常发生假死现象的五种情况及解决方法

Win7 无法远程桌面 Windows Sever 2012 R2

微软停止为win10服务器,一切为了Win10 微软停售Windows 7和8.1

Win7系统.net framework 安装未成功（内含关键点）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Machine Learning for Computer Systems and Networking:A Survey ---综述阅读对于计算机系统和网络的机器学习

QQ授权登陆接入

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载