admin管理员组

文章数量:1656963

ICLR 2023
paper
code

Intro

离线逆强化学习由于 协变量偏移 \textbf{协变量偏移} 协变量偏移问题容易导致所学的 奖励函数外推误差 \textbf{奖励函数外推误差} 奖励函数外推误差。这种误差可能使得学习到的奖励函数无法正确解释任务,并在新环境中误导智能体。本文利用专家数据和低质量的多样化数据,设计了一个算法CLARE,通过将“保守性”纳入学习奖励函数中并利用估计动态模型,有效地解决离线IRL。CLARE旨在解决奖励外推误差,利用高质量专家数据和低质量多样化数据增强状态-行为空间的覆盖。该算法在 保守奖励更新和安全策略改进之间进行迭代 \textbf{保守奖励更新和安全策略改进之间进行迭代} 保守奖励更新和安全策略改进之间进行迭代,奖励函数根据加权专家和多样化状态-行为更新,同时谨慎地惩罚模型rollout生成的行为。在MuJoCo连续控制任务上进行的广泛实验比较了CLARE与现有的离线IRL和离线IL算法。结果表明,CLARE在几乎所有数据集上都取得了显著的性能提升。

Method

Learning dynamics models

采用MOPO中的集成模型构造动力学模型,通过监督学习形式优化得到 { T ^ i ( s ′ ∣ s , a ) = N ( μ i ( s , a ) , Σ i ( s , a ) ) } i = 1 N \{\widehat{T}_{i}(s^{\prime}|s,a)=\mathcal{N}(\mu_{i}(s,a),\Sigma_{i}(s,a))\}_{i=1}^{N} {T i(ss,a)=N(μi(s,a),Σi(s,a))}i=1N

CLARE

算法在保守奖励更新和安全策略改进之间进行迭代

  1. L ( r ∣ π ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] ⏟ penalized on model rollouts − E s , a ∼ ρ ˉ E [ r ( s , a ) ] ⏟ increased on expert data − E s , a ∼ ρ ˉ D [ β ( s , a ) r ( s , a ) ] ⏟ weighting expert and diverse data + Z β ψ ( r ) ⏟ regularizer , ( 2 ) L(r|\pi)\doteq\underbrace{Z_\beta\mathbb{E}_{s,a\thicksim\hat{\rho}^\pi}[r(s,a)]}_{\text{penalized on model rollouts}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^E}[r(s,a)]}_{\text{increased on expert data}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^D}[\beta(s,a)r(s,a)]}_{\text{weighting expert and diverse data}}+\underbrace{Z_\beta\psi(r)}_{\text{regularizer}},\quad(2) L(rπ)penalized on model rollouts ZβEs,aρ^π[r(s,a)]increased on expert data Es,aρˉE[r(s,a)]weighting expert and diverse data Es,aρˉD[β(s,a)r(s,a)]+regularizer Zβψ(r),(2)
    其中权重 Z β ≐ 1 + E s ′ , a ′ ∼ ρ ~ D [ β ( s ′ , a ′ ) ] Z_{\beta}\doteq1+\mathbb{E}_{s^{\prime},a^{\prime}\sim\tilde{\rho}^{D}}[\beta(s^{\prime},a^{\prime})] Zβ1+Es,aρ~D[β(s,a)], 经验分布 ρ ~ D ( s , a ) ≐ ( ∣ D E ( s , a ) ∣ + ∣ D B ( s , a ) ∣ ) / ( D E + D B ) \tilde{\rho}^{D}(s,a)\doteq(|\mathcal{D}_{E}(s,a)|+|\mathcal{D}_{B}(s,a)|)/(D_{E}+D_{B}) ρ~D(s,a)(DE(s,a)+DB(s,a))/(DE+DB) ρ ~ E ≐ ∣ D E ( s , a ) ∣ / D E \tilde{\rho}^{E}\doteq|\mathcal{D}_{E}(s,a)|/D_{E} ρ~EDE(s,a)∣/DE。而 ρ ^ π \hat{\rho}^{\pi} ρ^π表示在学习得到的动力学模型在执行策略 π \pi π得到的占用度量。
  2. max ⁡ π ∈ I I L ( π ∣ r ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] + α H ^ ( π ) , \max_{\pi\in\mathrm{II}}L(\pi|r)\doteq Z_\beta\mathbb{E}_{s,a\sim\hat{\rho}^\pi}[r(s,a)]+\alpha\widehat{H}(\pi), πIImaxL(πr)ZβEs,aρ^π[r(s,a)]+αH (π),

文章回顾保守奖励函数优化问题,得到如下定义

D ψ D_\psi Dψ为广义距离统计函数。上述结果说明CLARE 基于模型 T ^ \hat{T} T^隐含优化一个策略,使得其占用度量保持在专家数据集 D E D_E DE和联合离线数据集 D 的经验分布的插值附近。CLARE 试图通过选择适当的权重参数 β(s, a) 来权衡模型的探索和离线数据的利用。接下来核心便是如何选择 β ( s , a ) \beta(s,a) β(s,a)

CLARE基于不确定估计确定 β \beta β。不确定估计器为 c ( s , a ) = max ⁡ i ∈ [ N ] ∥ Σ i ( s , a ) ∥ F , c(s,a)=\max_{i\in[N]}\|\Sigma_{i}(s,a)\|_{F}, c(s,a)=maxi[N]Σi(s,a)F,。那每个(s,a)的 β \beta β表示为
β ( s , a ) = { N ′ ′ D N ′ D E , i f c ( s , a ) ≤ u , − D D E ⋅ 1 [ ( s , a ) ∈ D E ] , i f c ( s , a ) > u , 0 , o t h e r w i s e , \beta(s,a)=\begin{cases}\frac{N''D}{N'D_E},&ifc(s,a)\leq u,\\-\frac{D}{D_E}\cdot\mathbf{1}[(s,a)\in\mathcal{D}_E],&ifc(s,a)>u,\\0,&otherwise,\end{cases} β(s,a)= NDEN′′D,DED1[(s,a)DE],0,ifc(s,a)u,ifc(s,a)>u,otherwise,
其中 u u u是一个超参数, N ′ ≐ ∑ ( s , a ) ∈ D 1 [ c ( s , a ) ≤ u ]  and  N ′ ′ ≐ ∑ ( s , a ) ∈ D E 1 [ c ( s , a ) > u ] N'\doteq\sum_{(s,a)\in\mathcal{D}}\mathbf{1}[c(s,a)\leq u]\text{ and }N''\doteq\sum_{(s,a)\in\mathcal{D}_{E}}\mathbf{1}[c(s,a)>u] N(s,a)D1[c(s,a)u] and N′′(s,a)DE1[c(s,a)>u]

Reward and policy regularizers

在实际操作中,对保守奖励优化问题中的 ψ ( r ) = r 2 \psi(r)=r^{2} ψ(r)=r2。奖励函数优化函数如下
L ( r ϕ ) ≐ Z β E D r e p l a y [ r ϕ ( s , a ) ] + Z β E s , a ∼ D ∪ D r e p l a y [ r ϕ ( s , a ) 2 ] − E s , a ∼ D E [ r ϕ ( s , a ) ] − E s , a ∼ D [ β ( s , a ) r ϕ ( s , a ) ] . \begin{aligned}L(r_{\phi})&\doteq Z_{\beta}\mathbb{E}_{\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)\right]+Z_{\beta}\mathbb{E}_{s,a\sim\mathcal{D}\cup\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)^{2}\right]\\&-\mathbb{E}_{s,a\sim\mathcal{D}_{E}}\big[r_{\phi}(s,a)\big]-\mathbb{E}_{s,a\sim\mathcal{D}}\big[\beta(s,a)r_{\phi}(s,a)\big].\end{aligned} L(rϕ)ZβEDreplay[rϕ(s,a)]+ZβEs,aDDreplay[rϕ(s,a)2]Es,aDE[rϕ(s,a)]Es,aD[β(s,a)rϕ(s,a)].

对策略优化采用SAC,而在这为了加速策略改进,从离线数据中采样batch的数据,将KL正则化加入其中
D K L ( π b ∥ π ) ≐ E s ∈ D ′ [ E a ∼ π b ( ⋅ ∣ s ) [ log ⁡ π b ( a ∣ s ) ] − E a ∼ π b ( ⋅ ∣ s ) [ log ⁡ π ( a ∣ s ) ] ] , D_{\mathrm{KL}}(\pi^b\|\pi)\doteq\mathbb{E}_{s\in\mathcal{D}^{\prime}}\Big[\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi^b(a|s)\Big]-\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi(a|s)\Big]\Big], DKL(πbπ)EsD[Eaπb(s)[logπb(as)]Eaπb(s)[logπ(as)]],
其中 π b ( a ∣ s ) = ∑ ( s ′ , a ′ ) ∈ D ′ 1 [ s ′ = s , a ′ = a ] ∑ ( s ′ , a ′ ) ∈ D ′ 1 [ s ′ = s ]   i f   ( s , a ) ∈ D ′ , and  π b ( a ∣ s ) = 0    o t h e r w i s e \pi^b(a|s)=\frac{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s,a^{\prime}=a]}{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s]}\mathrm{~if~}(s,a)\in\mathcal{D}^{\prime}\text{, and }\pi^b(a|s)=0 ~~otherwise πb(as)=(s,a)D1[s=s](s,a)D1[s=s,a=a] if (s,a)D, and πb(as)=0  otherwise。这一项可以直接用 − E s , a ∼ D ′ [ log ⁡ π ( a ∣ s ) ] -\mathbb{E}_{s,a\sim\mathcal{D}^{\prime}}[\log\pi(a|s)] Es,aD[logπ(as)]代替实现。

伪代码


其中安全的策略改进过程如下

保守的奖励函数更新

结果


消融实验


对不同质量的离线数据进行消融

本文标签: ConservativeModelofflineCLAREBased