Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning|电子爱好者

admin管理员组
文章数量:1656963

ICLR 2023
paper
code

Intro

离线逆强化学习由于协变量偏移 \textbf{协变量偏移} 协变量偏移问题容易导致所学的奖励函数外推误差 \textbf{奖励函数外推误差} 奖励函数外推误差。这种误差可能使得学习到的奖励函数无法正确解释任务，并在新环境中误导智能体。本文利用专家数据和低质量的多样化数据，设计了一个算法CLARE，通过将“保守性”纳入学习奖励函数中并利用估计动态模型，有效地解决离线IRL。CLARE旨在解决奖励外推误差，利用高质量专家数据和低质量多样化数据增强状态-行为空间的覆盖。该算法在保守奖励更新和安全策略改进之间进行迭代 \textbf{保守奖励更新和安全策略改进之间进行迭代} 保守奖励更新和安全策略改进之间进行迭代，奖励函数根据加权专家和多样化状态-行为更新，同时谨慎地惩罚模型rollout生成的行为。在MuJoCo连续控制任务上进行的广泛实验比较了CLARE与现有的离线IRL和离线IL算法。结果表明，CLARE在几乎所有数据集上都取得了显著的性能提升。

Method

Learning dynamics models

采用MOPO中的集成模型构造动力学模型，通过监督学习形式优化得到 { T ^ i ( s ′ ∣ s , a ) = N ( μ i ( s , a ) , Σ i ( s , a ) ) } i = 1 N \{\widehat{T}_{i}(s^{\prime}|s,a)=\mathcal{N}(\mu_{i}(s,a),\Sigma_{i}(s,a))\}_{i=1}^{N} {T i(s′∣s,a)=N(μi(s,a),Σi(s,a))}i=1N

CLARE

算法在保守奖励更新和安全策略改进之间进行迭代

L ( r ∣ π ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] ⏟ penalized on model rollouts − E s , a ∼ ρ ˉ E [ r ( s , a ) ] ⏟ increased on expert data − E s , a ∼ ρ ˉ D [ β ( s , a ) r ( s , a ) ] ⏟ weighting expert and diverse data + Z β ψ ( r ) ⏟ regularizer , ( 2 ) L(r|\pi)\doteq\underbrace{Z_\beta\mathbb{E}_{s,a\thicksim\hat{\rho}^\pi}[r(s,a)]}_{\text{penalized on model rollouts}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^E}[r(s,a)]}_{\text{increased on expert data}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^D}[\beta(s,a)r(s,a)]}_{\text{weighting expert and diverse data}}+\underbrace{Z_\beta\psi(r)}_{\text{regularizer}},\quad(2) L(r∣π)≐penalized on model rollouts ZβEs,a∼ρ^π[r(s,a)]−increased on expert data Es,a∼ρˉE[r(s,a)]−weighting expert and diverse data Es,a∼ρˉD[β(s,a)r(s,a)]+regularizer Zβψ(r),(2)
其中权重 Z β ≐ 1 + E s ′ , a ′ ∼ ρ ~ D [ β ( s ′ , a ′ ) ] Z_{\beta}\doteq1+\mathbb{E}_{s^{\prime},a^{\prime}\sim\tilde{\rho}^{D}}[\beta(s^{\prime},a^{\prime})] Zβ≐1+Es′,a′∼ρ~D[β(s′,a′)]，经验分布 ρ ~ D ( s , a ) ≐ ( ∣ D E ( s , a ) ∣ + ∣ D B ( s , a ) ∣ ) / ( D E + D B ) \tilde{\rho}^{D}(s,a)\doteq(|\mathcal{D}_{E}(s,a)|+|\mathcal{D}_{B}(s,a)|)/(D_{E}+D_{B}) ρ~D(s,a)≐(∣DE(s,a)∣+∣DB(s,a)∣)/(DE+DB)， ρ ~ E ≐ ∣ D E ( s , a ) ∣ / D E \tilde{\rho}^{E}\doteq|\mathcal{D}_{E}(s,a)|/D_{E} ρ~E≐∣DE(s,a)∣/DE。而 ρ ^ π \hat{\rho}^{\pi} ρ^π表示在学习得到的动力学模型在执行策略 π \pi π得到的占用度量。
max ⁡ π ∈ I I L ( π ∣ r ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] + α H ^ ( π ) , \max_{\pi\in\mathrm{II}}L(\pi|r)\doteq Z_\beta\mathbb{E}_{s,a\sim\hat{\rho}^\pi}[r(s,a)]+\alpha\widehat{H}(\pi), π∈IImaxL(π∣r)≐ZβEs,a∼ρ^π[r(s,a)]+αH (π),

文章回顾保守奖励函数优化问题，得到如下定义

D ψ D_\psi Dψ为广义距离统计函数。上述结果说明CLARE 基于模型 T ^ \hat{T} T^隐含优化一个策略，使得其占用度量保持在专家数据集 D E D_E DE和联合离线数据集 D 的经验分布的插值附近。CLARE 试图通过选择适当的权重参数 β(s, a) 来权衡模型的探索和离线数据的利用。接下来核心便是如何选择 β ( s , a ) \beta(s,a) β(s,a)。

CLARE基于不确定估计确定 β \beta β。不确定估计器为 c ( s , a ) = max ⁡ i ∈ [ N ] ∥ Σ i ( s , a ) ∥ F , c(s,a)=\max_{i\in[N]}\|\Sigma_{i}(s,a)\|_{F}, c(s,a)=maxi∈[N]∥Σi(s,a)∥F,。那每个(s,a)的 β \beta β表示为
β ( s , a ) = { N ′ ′ D N ′ D E , i f c ( s , a ) ≤ u , − D D E ⋅ 1 [ ( s , a ) ∈ D E ] , i f c ( s , a ) > u , 0 , o t h e r w i s e , \beta(s,a)=\begin{cases}\frac{N''D}{N'D_E},&ifc(s,a)\leq u,\\-\frac{D}{D_E}\cdot\mathbf{1}[(s,a)\in\mathcal{D}_E],&ifc(s,a)>u,\\0,&otherwise,\end{cases} β(s,a)=⎩ ⎨ ⎧N′DEN′′D,−DED⋅1[(s,a)∈DE],0,ifc(s,a)≤u,ifc(s,a)>u,otherwise,
其中 u u u是一个超参数， N ′ ≐ ∑ ( s , a ) ∈ D 1 [ c ( s , a ) ≤ u ] and N ′ ′ ≐ ∑ ( s , a ) ∈ D E 1 [ c ( s , a ) > u ] N'\doteq\sum_{(s,a)\in\mathcal{D}}\mathbf{1}[c(s,a)\leq u]\text{ and }N''\doteq\sum_{(s,a)\in\mathcal{D}_{E}}\mathbf{1}[c(s,a)>u] N′≐∑(s,a)∈D1[c(s,a)≤u] and N′′≐∑(s,a)∈DE1[c(s,a)>u]

Reward and policy regularizers

在实际操作中，对保守奖励优化问题中的 ψ ( r ) = r 2 \psi(r)=r^{2} ψ(r)=r2。奖励函数优化函数如下
L ( r ϕ ) ≐ Z β E D r e p l a y [ r ϕ ( s , a ) ] + Z β E s , a ∼ D ∪ D r e p l a y [ r ϕ ( s , a ) 2 ] − E s , a ∼ D E [ r ϕ ( s , a ) ] − E s , a ∼ D [ β ( s , a ) r ϕ ( s , a ) ] . \begin{aligned}L(r_{\phi})&\doteq Z_{\beta}\mathbb{E}_{\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)\right]+Z_{\beta}\mathbb{E}_{s,a\sim\mathcal{D}\cup\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)^{2}\right]\\&-\mathbb{E}_{s,a\sim\mathcal{D}_{E}}\big[r_{\phi}(s,a)\big]-\mathbb{E}_{s,a\sim\mathcal{D}}\big[\beta(s,a)r_{\phi}(s,a)\big].\end{aligned} L(rϕ)≐ZβEDreplay[rϕ(s,a)]+ZβEs,a∼D∪Dreplay[rϕ(s,a)2]−Es,a∼DE[rϕ(s,a)]−Es,a∼D[β(s,a)rϕ(s,a)].

对策略优化采用SAC，而在这为了加速策略改进，从离线数据中采样batch的数据，将KL正则化加入其中
D K L ( π b ∥ π ) ≐ E s ∈ D ′ [ E a ∼ π b ( ⋅ ∣ s ) [ log ⁡ π b ( a ∣ s ) ] − E a ∼ π b ( ⋅ ∣ s ) [ log ⁡ π ( a ∣ s ) ] ] , D_{\mathrm{KL}}(\pi^b\|\pi)\doteq\mathbb{E}_{s\in\mathcal{D}^{\prime}}\Big[\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi^b(a|s)\Big]-\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi(a|s)\Big]\Big], DKL(πb∥π)≐Es∈D′[Ea∼πb(⋅∣s)[logπb(a∣s)]−Ea∼πb(⋅∣s)[logπ(a∣s)]],
其中 π b ( a ∣ s ) = ∑ ( s ′ , a ′ ) ∈ D ′ 1 [ s ′ = s , a ′ = a ] ∑ ( s ′ , a ′ ) ∈ D ′ 1 [ s ′ = s ] i f ( s , a ) ∈ D ′ , and π b ( a ∣ s ) = 0 o t h e r w i s e \pi^b(a|s)=\frac{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s,a^{\prime}=a]}{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s]}\mathrm{~if~}(s,a)\in\mathcal{D}^{\prime}\text{, and }\pi^b(a|s)=0 ~~otherwise πb(a∣s)=∑(s′,a′)∈D′1[s′=s]∑(s′,a′)∈D′1[s′=s,a′=a] if (s,a)∈D′, and πb(a∣s)=0 otherwise。这一项可以直接用 − E s , a ∼ D ′ [ log ⁡ π ( a ∣ s ) ] -\mathbb{E}_{s,a\sim\mathcal{D}^{\prime}}[\log\pi(a|s)] −Es,a∼D′[logπ(a∣s)]代替实现。

伪代码

其中安全的策略改进过程如下

保守的奖励函数更新

结果

消融实验

对不同质量的离线数据进行消融

本文标签： Conservative Model offline CLARE Based

版权声明：本文标题：Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729755687a1212103.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning

Intro

Method

Learning dynamics models

CLARE

Reward and policy regularizers

伪代码

结果

消融实验

更多相关文章

Codeforces Round #689 (Div. 2, based on Zed Code Competition)解题报告

A Regularized Competition Model for Question Diffi culty Estimation in Community Question Answering ...

signature=9e6873686326b073f8f457fa0e6c2f70,Signature Verification Competition for Online and Offline...

【Jailhouse 文章】Evaluation of a Hypervisor-Based Smart Controller for Industry 4.0 Functions in ...

Graph-based Knowledge Tracing: Modeling Student Proficiency Using Graph Neural Network

Helper-based Adversarial Training: Reducing Excessive Margin to Achieve a Better Accuracy vs. Robust

ubuntu18 误修改权限导致的系统无法启动修复及Recovery model（恢复）模式的使用

CodeKGC: Code Language Model for Generative Knowledge Graph Construction 论文笔记

研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》（2018ACL）

laravel爬坑日记&quot;No query results for model [AppAdminModelsCapacityProductPrice] threeForm&quot;

android tv x86下载地址,atvx86: Android TV based on Android-x86

论文阅读笔记：Position-prior Clustering-based Self-attention Module for Knee Cartilage Segmentation

Access-based enumeration in Windows Server 2012

#include errors detected based on information provided by the configurationProvider setting.

【论文阅读】Search-Based Testing Approach for Deep Reinforcement Learning Agents

《论文笔记》A Frontier-Based Approach for Autonomous Exploration

【数据安全】3. Android 文件级加密（File-based Encryption）技术介绍

Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计),CQL(R)与CQL(H)

Conservative Q-Learning for Offline Reinforcement Learning

Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning

发表评论

推荐文章

win11系统连接MySQL报错could not acquire management access for administration

人工智能交互革命：探索ChatGPT的无限可能 第5章 ChatGPT-语音助手

2018最新苹果APP上架App Store流程（超详细）

Python 开发的几款顶级 App

【T+】畅捷通T+在运行时sqlserver占用内存过大，导致电脑卡顿。

热门文章

硬件技术

cmd恢复默认

html5播放器 迅雷,搜狗浏览器HTML5视频播放器插件(HTML5.Video.Player)

error updating changes：Cannot identify version of git executable git.exe

车机没有carlife可以自己下载吗_我可以忍受我的车上没有空调，但是我不能忍受我的车上没有CarPlay！...

使用Win32DiskImager来备份树莓派镜像文件

Windows10下JAVA环境变量的设置

CPU与GPU 扫盲

第六章 恶意代码与防护

重磅，ChatGPT App 来了！（附保姆级教程）

最新文章

uni-app实战之社区交友APP（4）首页开发

app与后台的token、sessionId、RSA加密登录认证与安全解决方案

wx-open-launch-app微信开放标签唤醒app方法

app耗电检测分析以及优化

苹果m1芯片可以用mysql吗_为什么浩南不建议购买M1芯片的苹果电脑？跑分高不一定好用...

TN2413: 应用内购（In-App Purchase）常见问题

Oracle篇—logminer日志挖掘恢复误操作数据

推荐一款功能强大的日程管理App

代码实战：APP用户数据分析 - 全链路用户路径分析 （上）

【Python】AppUI自动化—appium自动化开发环境部署、APP测试案例（17）上

解密Android7.0 8.0进程保活与拉活的实现方式 如何才能让APP常驻内存 躲避系统的追杀

App耗电及Crash体验优化

了解App启动时间测试方法

iOS-APP崩溃分析

vue3源码之createApp

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

laravel爬坑日记"No query results for model [AppAdminModelsCapacityProductPrice] threeForm"

人工智能交互革命：探索ChatGPT的无限可能第5章 ChatGPT-语音助手

html5播放器迅雷,搜狗浏览器HTML5视频播放器插件(HTML5.Video.Player)

第六章恶意代码与防护

代码实战：APP用户数据分析 - 全链路用户路径分析（上）

解密Android7.0 8.0进程保活与拉活的实现方式如何才能让APP常驻内存躲避系统的追杀

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载