离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现|电子爱好者

admin管理员组
文章数量:1657062

[更新记录]

论文信息：Conservative Q-Learning for Offline Reinforcement Learning]
[Code]

本文由UC Berkeley的Sergey Levine团队(一作是Aviral Kumar)于2020年提出，并发表在NIPS2020会议上。论文的主要思想是在 Q Q Q值基础上增加一个regularizer，学习一个保守的Q函数，作者从理论上证明了CQL可以产生一个当前策略的真实值下界，并且是可以进行策略评估和策略提升的过程。从代码的角度上来说，本文的regularizer只需要20行代码即可实现，大幅提升了实验结果。同时作者也全部opensource了代码，非常推荐研究。

摘要：在CQL算法出来之前，离线强化学习中对于分布偏移问题的解决思路是将待优化策略的动作选择限制在离线数据集的动作分布上，从而避免分布外的动作出现Q值的过估计问题，进而减少了未知的动作在策略训练学习过程中的影响，这种方法被称为策略约束（Policy constraint），比如离线强化学习中的BCQ和BEAR算法。CQL尝试通过修改值函数的back up方式，在 Q Q Q值的基础上添加一个regularizer，得到真实动作值函数的下界估计。实验表明，CQL的表现非常好，特别是在学习复杂和多模态数据分布的时候。

文章目录

1、预备知识
- 1.1 sample error
- 1.2 Operator
- - 1.2.1 Bellman operator
  - 1.2.2 Empirical Bellman operator
  - 1.2.3 Optimal Bellman operator
- 1.3 策略迭代
- - 1.3.1 策略评估
  - 1.3.2 策略提升
2、算法框架
- 2.1 Q_1
- 2.2 Q_2
- 2.3 CQL
- 2.4 策略提升
- 2.5 伪代码
3、结果
- Gym结果
- D4RL结果
- Atari结果
4、代码实现
参考文献
OfflineRL推荐阅读

1、预备知识

1.1 sample error

离线数据集 D \mathcal{D} D是通过使用行为策略 π β ( a ∣ s ) \pi_{\beta}(\mathbf{a} \mid \mathbf{s}) πβ(a∣s)采样得到的， d π β ( s ) d^{\pi_{\beta}}(\mathbf{s}) dπβ(s)是折扣的边缘状态分布， D ∼ d π β ( s ) π β ( a ∣ s ) \mathcal{D} \sim d^{\pi_{\beta}}(\mathbf{s})\pi_{\beta}(\mathbf{a} \mid \mathbf{s}) D∼dπβ(s)πβ(a∣s)，采样的过程会因为状态动作对的采样不充分产生sample error。

1.2 Operator

关于对Bellman算子的理解和策略迭代过程可以参考这篇文章，通过Bellman算子理解动态规划

1.2.1 Bellman operator

B π Q = r + γ P π Q \mathcal{B}^{\pi} Q=r+\gamma P^{\pi} Q BπQ=r+γPπQ
P π Q ( s , a ) = E s ′ ∼ T ( s ′ ∣ s , a ) , a ′ ∼ π ( a ′ ∣ s ′ ) [ Q ( s ′ , a ′ ) ] P^{\pi} Q(\mathbf{s}, \mathbf{a})=\mathbb{E}_{\mathbf{s}^{\prime} \sim T\left(\mathbf{s}^{\prime} \mid \mathbf{s}, \mathbf{a}\right), \mathbf{a}^{\prime} \sim \pi\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[Q\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right] PπQ(s,a)=Es′∼T(s′∣s,a),a′∼π(a′∣s′)[Q(s′,a′)]

1.2.2 Empirical Bellman operator

离线数据集无法包含所有动作的转移数据，因此只能用 D \mathcal{D} D中包含的数据进行back up，用 B ^ π \hat{\mathcal{B}}^{\pi} B^π表示。

1.2.3 Optimal Bellman operator

B ∗ Q ( s , a ) = r ( s , a ) + γ E s ′ ∼ P ( s ′ ∣ s , a ) [ max ⁡ a ′ Q ( s ′ , a ′ ) ] \mathcal{B}^{*} Q(\mathbf{s}, \mathbf{a})=r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{s}^{\prime} \sim P\left(\mathbf{s}^{\prime} \mid \mathbf{s}, \mathbf{a}\right)}\left[\max _{\mathbf{a}^{\prime}} Q\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right] B∗Q(s,a)=r(s,a)+γEs′∼P(s′∣s,a)[a′maxQ(s′,a′)]

1.3 策略迭代

1.3.1 策略评估

当前我们在优化这个策略的过程中，会得到对应策略的值函数，根据值函数估计策略的价值。
Q ^ k + 1 ← arg ⁡ min ⁡ Q E s , a , s ′ ∼ D [ ( ( r ( s , a ) + γ E a ′ ∼ π ^ k ( a ′ ∣ s ′ ) [ Q ^ k ( s ′ , a ′ ) ] ) − Q ( s , a ) ) 2 ] (policy evaluation) \hat{Q}^{k+1} \leftarrow \arg \min _{Q} \mathbb{E}_{\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime} \sim \mathcal{D}}\left[\left(\left(r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{a}^{\prime} \sim \hat{\pi}^{k}\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[\hat{Q}^{k}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]\right)-Q(\mathbf{s}, \mathbf{a})\right)^{2}\right] \text { (policy evaluation) } Q^k+1←argQminEs,a,s′∼D[((r(s,a)+γEa′∼π^k(a′∣s′)[Q^k(s′,a′)])−Q(s,a))2] (policy evaluation)

1.3.2 策略提升

通过在 Q Q Q函数上取极大化，然后在这个 Q Q Q函数上面做一个贪心的搜索来进一步改进它的策略。
π ^ k + 1 ← arg ⁡ max ⁡ π E s ∼ D , a ∼ π k ( a ∣ s ) [ Q ^ k + 1 ( s , a )

本文标签：算法离线详解系列 offline

版权声明：本文标题：离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729755670a1212101.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现

文章目录

1、预备知识

1.1 sample error

1.2 Operator

1.2.1 Bellman operator

1.2.2 Empirical Bellman operator

1.2.3 Optimal Bellman operator

1.3 策略迭代

1.3.1 策略评估

1.3.2 策略提升

更多相关文章

工具--Git详解

【java进阶】Linux使用详解

Java开发环境搭建超全详解，腾讯Java校招面试题

IIS7.0IIS7.5 Microsoft.Web.Administration相关操作参数详解

开博尔android播放器,你看！你细看！开博尔Q50播放器本地和NAS文件管理方式详解...

国密算法SM4加密，数据加密存储加密

主宰这个世界的10种算法

[杀毒防毒]用Mcafee打造自己的安全系统详解

vue系列---identify(生成图片验证码)插件

i5集显和独显的区别_独显和集显的区别哪个好（详解两者的优劣势）

Firefox 110, Chrome 110, Chromium 110 官网离线下载 (macOS, Linux, Windows)

【转载】CPU散热器详解

使用GPU进行大规模并行仿真，解决强化学习采样瓶颈：CPU、GPU架构以及原理详解

如何将你的iOS应用成功上架App Store（图文详解）

比“心脏流血”还危险？详解Bash漏洞安全事件！

第三方登录（QQ登录）开发流程详解

java 实现仿QQ聊天系统简易地实现 网络 在线聊天代码详解（附源代码）

Computer：Linux系统简介(思想特点功能、各版本详解(UbuntuCentOSDebainopenEuler等)、与Windows比较)、常见操作(Shell命令快捷键)之详细攻

VMware虚拟机网络模式配置详解【原理,功能,特点层面】

DHCP八种报文 Discover Offer Request Ack Nack decline release inform及其工作原理流程 详解

发表评论

推荐文章

【博客16】缤果Android_SPP蓝牙串口调试助手V1.0(高级篇)

[MSDN]最新Win7 SP1简体中文所有版本下载

Oracle授权如何购买？多少钱？如何计算？

各种资源网站

linux之认识软件包，rpm命令怎么用？怎么搭建软件仓库？怎么使用dnf下载软件？怎么搭建共享软件仓库？怎么搭建epel源软件仓库？

热门文章

user administration

centos 安装惠普打印机驱动

virtualbox虚拟机上播放器白屏问题

i5 10200h 和i7 10875h哪个好

windows10 上安装 docker

ios上架及证书最新申请流程

Jupyter Notebook运行速度变得很慢

苹果商城怎么调成中文_海豚加速器拳头账号中文注册下载-海豚加速器拳头账号注册下载 v2020...

win10无损升级到win11

Decline：构建优雅的命令行工具

最新文章

爱思助手从苹果服务器shsh失败,什么是SHSH？如何通过爱思助手备份SHSH？

推荐使用 vue-cookie-accept-decline：一款强大的 GDPR 合规工具

Decline：构建优雅的命令行工具

linux卸载dhcp后安装失败,网络 – 在Ubuntu网络安装中DHCP失败：DHCPDECLINE

DHCP的Decline分析【转】

爱思服务器shsh文件类型,爱思助手SHSH怎么备份 爱思助手SHSH备份教程

专为mac用户设计的苹果手机助手。爱思助手 Mac版结构更清晰，功能更好用，界面更清晰，让你能够轻松查看设备信息，下载最新最火的应用游戏。

vue-cookie-accept-decline 使用教程

gitee reject decline （hook declined）

DHCP八种报文 Discover Offer Request Ack Nack decline release inform及其工作原理流程 详解

ios5.1.1旧版软件下载_爱思助手V7.98.15 版发布：新增IPA签名旧版本应用下载等新功能...

SIP中603decline中的意义

跟《经济学人》学英文：2024年07月20日这期 To halt Brazil’s decline, Lula needs to cut runaway public spending

DHCPv4_CLIENT_INITIALIZATION_ALLOCATION_09: 如果地址正在使用，则向服务器发送DHCPDECLINE消息

DHCPv4_CLIENT_ALLOCATING_07: 发送DHCPDECLINE消息并重新启动配置过程

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

java 实现仿QQ聊天系统简易地实现网络在线聊天代码详解（附源代码）

DHCP八种报文 Discover Offer Request Ack Nack decline release inform及其工作原理流程详解

爱思服务器shsh文件类型,爱思助手SHSH怎么备份爱思助手SHSH备份教程

DHCP八种报文 Discover Offer Request Ack Nack decline release inform及其工作原理流程详解

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载