深度学习和dqn_深度Q学习方面的改进：双重DQN决斗，优先体验重播和固定…|电子爱好者

admin管理员组
文章数量:1531792

深度学习和dqn

by Thomas Simonini

通过托马斯·西蒙尼(Thomas Simonini)

深度Q学习方面的改进：双重DQN，优先体验重播和固定Q目标 (Improvements in Deep Q Learning: Dueling Double DQN, Prioritized Experience Replay, and fixed Q-targets)

This article is part of Deep Reinforcement Learning Course with Tensorflow ?️. Check the syllabus here.

本文是使用Tensorflow？️的深度强化学习课程的一部分。检查课程表。

In our last article about Deep Q Learning with Tensorflow, we implemented an agent that learns to play a simple version of Doom. In the video version, we trained a DQN agent that plays Space invaders.

在上一篇有关使用Tensorflow进行深度Q学习的文章中，我们实现了一个学习播放简单版《毁灭战士》的代理。在视频版本中，我们训练了一个DQN代理，该代理可以播放“太空侵略者” 。

However, during the training, we saw that there was a lot of variability.

但是，在培训期间，我们看到了很多可变性。

Deep Q-Learning was introduced in 2014. Since then, a lot of improvements have been made. So, today we’ll see four strategies that improve — dramatically — the training and the results of our DQN agents:

深度Q学习在2014年推出。自那时以来，已经进行了很多改进。因此，今天我们将看到四种可以显着改善DQN代理商的培训和结果的策略：

fixed Q-targets
固定的Q目标
double DQNs
双DQN
dueling DQN (aka DDQN)
决斗DQN(又名DDQN)
Prioritized Experience Replay (aka PER)
优先体验重播(又称PER)

We’ll implement an agent that learns to play Doom Deadly corridor. Our AI must navigate towards the fundamental goal (the vest), and make sure they survive at the same time by killing enemies.

我们将实施一个学习玩《毁灭战士的致命走廊》的特工。我们的AI必须导航至基本目标(背心)，并通过杀死敌人来确保它们同时生存。

固定Q目标 (Fixed Q-targets)

理论 (Theory)

We saw in the Deep Q Learning article that, when we want to calculate the TD error (aka the loss), we calculate the difference between the TD target (Q_target) and the current Q value (estimation of Q).

我们在“深度Q学习”一文中看到，当我们要计算TD误差(又称损失)时，我们计算TD目标(Q_target)和当前Q值(Q的估计)之差。

But we don’t have any idea of the real TD target. We need to estimate it. Using the Bellman equation, we saw that the TD target is just the reward of taking that action at that state plus the discounted highest Q value for the next state.

但是我们对真正的TD目标一无所知。 我们需要估计一下。使用Bellman方程，我们看到TD目标只是在该状态下采取该操作的奖励，再加上下一个状态的折后最高Q值。

However, the problem is that we using the same parameters (weights) for estimating the target and the Q value. As a consequence, there is a big correlation between the TD target and the parameters (w) we are changing.

但是，问题在于我们使用相同的参数(权重)来估计目标值和 Q值。结果，TD目标与我们正在更改的参数(w)之间存在很大的相关性。

Therefore, it means that at every step of training, our Q values shift but also the target value shifts. So, we’re getting closer to our target but the target is also moving. It’s like chasing a moving target! This lead to a big oscillation in training.

因此，这意味着在训练的每个步骤中， 我们的Q值都会移动，但目标值也会移动。 因此，我们离目标越来越近，但目标也在移动。就像追逐一个移动的目标！这导致训练中的大振荡。

It’s like if you were a cowboy (the Q estimation) and you want to catch the cow (the Q-target) you must get closer (reduce the error).

就像您是牛仔(Q估计值)并且想要赶牛(Q目标)一样，您必须靠近(减少误差)。

At each time step, you’re trying to approach the cow, which also moves at each time step (because you use the same parameters).

在每个时间步长处，您都尝试接近牛，它也会在每个时间步长处移动(因为您使用相同的参数)。

This leads to a very strange path of chasing (a big oscillation in training).

这导致了一个非常奇怪的追逐路径(训练中的巨大波动)。

Instead, we can use the idea of fixed Q-targets introduced by DeepMind:

相反，我们可以使用DeepMind引入的固定Q目标的想法：

Using a separate network with a fixed parameter (let’s call it w-) for estimating the TD target.
使用带有固定参数(称为w-)的单独网络来估算TD目标。
At every Tau step, we copy the parameters from our DQN network to update the target network.
在Tau的每个步骤中，我们都从DQN网络中复制参数以更新目标网络。

Thanks to this procedure, we’ll have more stable learning because the target function stays fixed for a while.

由于此过程，我们将获得更稳定的学习，因为目标函数会保持一段时间不变。

实作 (Implementation)

Implementing fixed q-targets is pretty straightforward:

实现固定的q目标非常简单：

First, we create two networks (DQNetwork, TargetNetwork)
首先，我们创建两个网络( DQNetwork ， TargetNetwork )

Then, we create a function that will take our DQNetwork parameters and copy them to our TargetNetwork
然后，我们创建一个函数，该函数将使用我们的DQNetwork参数并将其复制到我们的TargetNetwork

Finally, during the tr

本文标签：深度决斗 DQN

版权声明：本文标题：深度学习和dqn_深度Q学习方面的改进：双重DQN决斗，优先体验重播和固定… 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726827287a1086217.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

深度学习和dqn_深度Q学习方面的改进：双重DQN决斗，优先体验重播和固定…

深度Q学习方面的改进：双重DQN，优先体验重播和固定Q目标 (Improvements in Deep Q Learning: Dueling Double DQN, Prioritized Experience Replay, and fixed Q-targets)

固定Q目标 (Fixed Q-targets)

理论 (Theory)

实作 (Implementation)

更多相关文章

ChatGPT：深度拆解（24H限时下载）

最详细的 Windows 下 PyTorch 入门深度学习环境安装与配置 （GPU版本）

【深度学习1】win11+ubuntu22.04双系统安装（简洁版）

iso 绝对pe_深度 WinPE 4.2 维护光盘ISO（含U盘PE制作工具） 下载地址

【深度学习】windows10环境配置详细教程

学python用ubuntu还是win10_win10+Ubuntu16.04双系统下深度学习环境的搭建

深度学习GPU显卡选型攻略

深度解读浏览器全面禁用三方 Cookie

深度LINUX运行IE,Linux下使用IE [转]

deepin efi 启动u盘_深度系统（Deepin Linux）U盘安装教程！！附学习资料，干货

深度技术 Windows 7 SP1 x64 极速装机版 V2013.05

致《上网记录深度擦除工具》用户的说明

三步删除U深度，老毛桃，大白菜捆绑软件！！

【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架]（4）

微软Edge浏览器中的自定义用户代理字符串：深度解析与实践

mac 无法对计算机进行更改,解析深度技术win10 MAC不能修改的原因和解决成功的技巧...

【踩坑记录】搭建 RTX3090 深度学习服务器 (从系统重装到跑起DL)

2019年AI芯片产业深度研究报告

2020年汽车芯片行业深度报告-1

【AI芯片】2019年AI芯片产业深度研究报告

发表评论

推荐文章

AMD CPU 电脑突然画面声音突然卡顿，卡碟声，画面撕裂

搜狗拼音输入法的安装和基本使用

Debian下安装搜狗拼音输入法

mac未能正确推出移动硬盘而读取不了

Centos服务器上使用移动硬盘（NTFS分区）

热门文章

在群晖nas中部署firefox浏览器

win10查看图片显示：Windows无法访问指定设备、路径或文件。你可能没有适当的权限访问该项目

如何开发一个chrome浏览器插件

从一个路由器里面接出一条网线,连接到另一个路由器

家用路由器 实现 Web认证

电脑没有发现路由器共享的硬盘U盘

应用程序错误电脑黑屏_为什么电脑一开机就黑屏 说应用程序错误程序不能读，按确定后仍然是黑屏...

服务器虚拟机解锁苹果,Unlocker(VMware虚拟机MacOS系统解锁工具)v3.0.2 免费版-ucbug软件站...

cookie存放位置(Win10)

搜狗拼音输入法打开config.exe找不到kernel32.dll怎么办？全方位深入解决方案介绍

最新文章

微信QQ中已停止访问该网页的处理办法

Win10升级后执行系统封装(Sysprep)报错

win7与win10系统哪个好？你听过中兴新支点操作系统么

win7下vs2008过期升级没有提示序列号

XPWin7Ubuntu多系统下修改C盘UUID造成Ubuntu启动错误的解决办法

前端html第三方登录集合，微信，微博，企鹅

微信公众号之用户登录

在64位Win7操作系统中安装Microsoft Access Engine的解决方案(转)

计算机无法启动打印服务,win7打印服务无法启动怎么办？打印服务无法启动修复...

nvidia控制面板点了没反应win7_控制面板无响应怎么办_为什么nvidia控制面板打不开图文步骤...

科普：黑客盗QQ究竟是怎么回事？

解决win7 vs2008没有升级按钮导致无法升级

原创---爱普生LQ-690K打印机win7共享报错解决方案“Windows无法连接到打印机。无法找...

六个Win7下XP模式的缺陷

【jiasuba】WindowsXP升级Windows7过程中时出现了问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

最详细的 Windows 下 PyTorch 入门深度学习环境安装与配置（GPU版本）

iso 绝对pe_深度 WinPE 4.2 维护光盘ISO（含U盘PE制作工具）下载地址

家用路由器实现 Web认证

应用程序错误电脑黑屏_为什么电脑一开机就黑屏说应用程序错误程序不能读，按确定后仍然是黑屏...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载