admin管理员组文章数量:1657062
本文将介绍2020年NIPS上的文章,我认为非常有助于RL研究者进行深入阅读,是一篇兼具理论和实际应用的好文章。CQL原文在此,由于CQL原文内容符号比较混乱,并且在公式推导和符号定义上存在一些小错误。笔者进行了仔细阅读和分析,在此做出一些自己语言的总结理解和重述,给予和笔者一样的读者和研究者进行参考和帮助,希望可以和大家一起讨论和学习。本篇文章理论分析性极强,若读者不喜欢理论证明而想直接应用,笔者也给出了如何直接应用CQL的部分。后续笔者会持续更新这部分与CQL的代码部分,由于CQL设计理论部分和应用部分,限于篇幅,笔者无法在一个博客写下所有,必须分开。笔者分成两部分来进行叙述,一部分用于Q估计,一部分用于V估计。笔者的证明中如有推导错误。欢迎各位学者提出批评和建议。
第一部分:Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)主要介绍基础概念和CQL第一个下界Q估计
第二部分:Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计),CQL®与CQL(H)。
不感兴趣原理的读者请直接阅读第二部分的2.4部分进行
C
Q
L
(
R
)
CQL(R)
CQL(R)和
C
Q
L
(
H
)
CQL(H)
CQL(H)的应用,而无需了解理论。
原作者给出的代码链接在此:CQL原作代码。但是笔者认为原作者给出的代码存在一些小问题,笔者在这里暂且保留这个疑虑,在文章中最后笔者给出了疑虑内容,欢迎大家进行讨论。笔者已经将文章出现的疑虑和代码疑虑汇总给CQL作者Aviral Kumar发了邮件。
作为开头,首先笔者先给出一些符号定义和问题的重述,便于后续的阅读,否则直接读极其容易混乱,希望本文可以给予读者指引。
1、预备知识说明
1.1、全文符号重定义
A
g
e
n
t
Agent
Agent:智能体(探索对象)
s
t
a
t
e
state
state:
A
g
e
n
t
Agent
Agent所处的状态——
t
t
t时刻所处状态简称为
s
t
s_t
st
a
a
a:
A
g
e
n
t
Agent
Agent所采取的动作——
t
t
t时刻所处采取的动作简称为
a
t
a_t
at
r
r
r:
A
g
e
n
t
Agent
Agent在
s
t
s_t
st下所采取动作
a
t
a_t
at获得多少奖励,简称为
r
(
s
t
,
a
t
)
r(s_t,a_t)
r(st,at)
符号内容 | 符号表示意义 |
---|---|
π β ( a t ∣ s t ) \pi_{\beta}(a_t|s_t) πβ(at∣st) | 先验分布函数,数据集中真实的 s t s_t st下采取动作 a t a_t at的概率 |
π ^ β ( a t ∣ s t ) \hat{\pi}_{\beta}(a_t|s_t) π^β(at∣st) | 经验分布函数,数据集体现在采样中 s t s_t st下采取动作 a t a_t at的概率 |
π ^ k ( a t ∣ s t ) \hat{\pi}^{k}(a_t|s_t) π^k(at∣st) | 第 k k k步迭代下, s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的概率 |
π ( a t ∣ s t ) \pi(a_t|s_t) π(at∣st) | 迭代稳定后, s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的概率 |
Q k ( s t , a t ) Q^{k}(s_t,a_t) Qk(st,at) | 第 k k k步迭代下, s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的真实Q值 |
Q ^ k ( s t , a t ) \hat{Q}^{k}(s_t,a_t) Q^k(st,at) | 第 k k k步迭代下, s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的预估Q值 |
Q π ( s t , a t ) Q^{\pi}(s_t,a_t) Qπ(st,at) | 迭代稳定后, s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的真实Q值 |
Q ^ π ( s t , a t ) \hat{Q}^{\pi}(s_t,a_t) Q^π(st,at) | 迭代稳定后, s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的预估Q值 |
T ( s t + 1 ∣ s t , a t ) T(s_{t+1}|s_t,a_t) T(st+1∣st,at) | s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的真实状态转移概率 |
T ^ ( s t + 1 ∣ s t , a t ) \hat{T}(s_{t+1}|s_t,a_t) T^(st+1∣st,at) | s t s_t st状态下, A g e n t Agent Agent采取动作 a t a_t at对应的经验状态转移概率 |
r ( s t , a t ) r(s_t,a_t) r(st,at) | s t s_t st状态下,基于 T T T得到 A g e n t Agent Agent采取动作 a t a_t at对应的真实奖励 |
r ^ ( s t , a t ) \hat{r}(s_t,a_t) r^(st,at) | s t s_t st状态下,基于 T ^ \hat{T} T^得到 A g e n t Agent Agent采取动作 a t a_t at对应的经验奖励 |
B π Q ( s t , a t ) B^{\pi}Q(s_t,a_t) BπQ(st,at) | r ( s t , a t ) + E s t + 1 ~ T , a t + 1 ~ π ( a t + 1 ∣ s t + 1 ) [ Q ( s t + 1 , a t + 1 ) ] r(s_t,a_t)+E_{s_{t+1}~T, a_{t+1}~\pi(a_{t+1}|s_{t+1})}[Q(s_{t+1},a_{t+1})] r(st,at)+Est+1~T,at+1~π(at+1∣st+1)[Q(st+1,at+1)] |
B ^ π Q ( s t , a t ) \hat{B}^{\pi}Q(s_t,a_t) B^πQ(st,at) | r ^ ( s t , a t ) + E s t + 1 ~ T ^ , a t + 1 ~ π ( a t + 1 ∣ s t + 1 ) [ Q ( s t + 1 , a t + 1 ) ] \hat{r}(s_t,a_t)+E_{s_{t+1}~\hat{T}, a_{t+1}~\pi(a_{t+1}|s_{t+1})}[Q(s_{t+1},a_{t+1})] r^(st,at)+Est+1~T^,at+1~π(at+1∣st+1)[Q(st+1,at+1)] |
V π ( s t ) V^{\pi}(s_t) Vπ(st) | E a t ~ π ( a t ∣ s t ) [ Q π ( s t , a t ) ] E_{a_t~\pi(a_t|s_t)}[Q^{\pi}(s_t,a_t)] Eat~π(at∣st)[Qπ(st,at)] |
V ^ k ( s t ) \hat{V}^{k}(s_t) V^k(st) | E a t ~ π ( a t ∣ s t ) [ Q ^ k ( s t , a t ) ] E_{a_t~\pi(a_t|s_t)}[\hat{Q}^k(s_t,a_t)] Eat~π(at∣st)[Q^k(st,at)] |
d π β ( s t ) d^{\pi_{\beta}}(s_t) dπβ(st) | π β ( a ∣ s ) {\pi_{\beta}}(a|s) πβ(a∣s)的状态边际分布 |
d ^ π β ( s t ) \hat{d}^{\pi_{\beta}}(s_t) d^πβ(st) | π ^ β ( a ∣ s ) {\hat{\pi}_{\beta}}(a|s) π^β(a∣s)的状态边际分布 |
1.2、预备知识和问题描述
1.2.1、离线数据集 D D D的构成
针对一个已经通过离线获取好的数据集
D
D
D,其中,
D
D
D为一系列这样的集合构成:
D
=
{
(
s
t
,
a
t
,
s
t
+
1
)
}
D=\{(s_t,a_t,s_{t+1})\}
D={(st,at,st+1)}
D
D
D中元素构成分为三部分,假设
D
D
D中元素总数为
∣
D
∣
|D|
∣D∣:
一、从边际先验分布
d
π
β
(
s
t
)
d^{\pi_{\beta}}(s_t)
dπβ(st)中采样获取
s
t
s_t
st
二、从先验分布
π
β
(
a
t
∣
s
t
)
\pi_{\beta}(a_t|s_t)
πβ(at∣st)中采样获取
a
t
a_t
at
三、从真实状态转移分布
T
(
s
t
+
1
∣
s
t
,
a
t
)
T(s_{t+1}|s_t,a_t)
T(st+1∣st,at)中采样获取
s
t
+
1
s_{t+1}
st+1
P
(
{
(
s
t
,
a
t
,
s
t
+
1
)
}
)
=
T
(
s
t
+
1
∣
s
t
,
a
t
)
π
β
(
a
t
∣
s
t
)
d
π
β
(
s
t
)
P(\{(s_t,a_t,s_{t+1})\})=T(s_{t+1}|s_t,a_t)\pi_{\beta}(a_t|s_t)d^{\pi_{\beta}}(s_t)
P({(st,at,st+1)})=T(st+1∣st,at)πβ(at∣st)dπβ(st)但是这一先验分布和真实状态转移分布其实人为是并不知道的。我们只能去估计。在实际应用中,我们只能获取到它的以下几个内容:
一、从边际经验分布
d
^
π
β
(
s
t
)
\hat{d}^{\pi_{\beta}}(s_t)
d^πβ(st)中采样获得
s
t
s_t
st
二、从经验分布
π
^
β
(
a
t
∣
s
t
)
\hat{\pi}_{\beta}(a_t|s_t)
π^β(at∣st)中采样获取
a
t
a_t
at
三、从经验状态转移分布
T
^
(
s
t
+
1
∣
s
t
,
a
t
)
\hat{T}(s_{t+1}|s_t,a_t)
T^(st+1∣st,at)中采样获取
s
t
+
1
s_{t+1}
st+1
其中,根据简单概率论知识不难得到这三者的定义计算公式如下,它们的定义均是由示性函数
1
1
1定义:
d
^
π
β
(
s
t
)
=
∑
s
∈
D
1
(
s
=
s
t
)
∣
D
∣
\hat{d}^{\pi_{\beta}}(s_t)=\frac{\sum_{s \in D}1(s=s_t)}{|D|}
d^πβ(st)=∣D∣∑s∈D1(s=st)
π
^
β
(
a
t
∣
s
t
)
=
P
(
s
t
,
a
t
)
d
^
π
β
(
s
t
)
=
∑
s
,
a
∈
D
1
(
s
=
s
t
,
a
=
a
t
)
∑
s
∈
D
1
(
s
=
s
t
)
\hat{\pi}_{\beta}(a_t|s_t)=\frac{P(s_t,a_t)}{\hat{d}^{\pi_{\beta}}(s_t)}=\frac{\sum_{s,a \in D}1(s=s_t,a=a_t)}{\sum_{s \in D}1(s=s_t)}
π^β(at∣st)=d^πβ(st)P(st,at)=∑s∈D1(s=st)∑s,a∈D1(s=st,a=at)
T
^
(
s
t
+
1
∣
s
t
,
a
t
)
=
P
(
s
t
,
a
t
,
s
t
+
1
)
P
(
s
t
,
a
t
)
=
∑
s
,
a
,
s
′
∈
D
1
(
s
=
s
t
,
a
=
a
t
,
s
′
=
s
t
+
1
)
∑
s
,
a
∈
D
1
(
s
=
s
t
,
a
=
a
t
)
\hat{T}(s_{t+1}|s_t,a_t)=\frac{P(s_t,a_t,s_{t+1})}{P(s_t,a_t)}=\frac{\sum_{s,a,s^{'}\in D}1(s=s_t,a=a_t,s^{'}=s_{t+1})}{\sum_{s,a \in D}1(s=s_t,a=a_t)}
T^(st+1∣st,at)=P(st,at)P(st,at,st+1)=∑s,a∈D1(s=st,a=at)∑s,a,s′∈D1(s=st,a=at,s′=st+1)
1.2.2、Bellman 最优算子(QL)与Bellman算子(AC)
Bellman 最优算子为Q-Learning(QL)更新时候采用的Q值更新方式,称之为
B
∗
B^{*}
B∗,定义如下,其中
γ
\gamma
γ为折扣因子(discounted-factor):
B
∗
Q
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
γ
E
s
t
+
1
~
T
[
m
a
x
a
Q
(
s
t
,
a
)
]
B^{*}Q(s_t,a_t)=r(s_t,a_t)+\gamma E_{s_{t+1}~T}[max_aQ(s_t,a)]
B∗Q(st,at)=r(st,at)+γEst+1~T[maxaQ(st,a)]Bellman算子为Actor-Critic(AC)更新时候采用的Q值更新方式,称之为
B
π
B^{\pi}
Bπ,定义如下,其中
γ
\gamma
γ为折扣因子(discounted-factor):
B
π
Q
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
γ
E
s
t
+
1
~
T
,
a
t
+
1
~
π
[
Q
(
s
t
+
1
,
a
t
+
1
)
]
B^{\pi}Q(s_t,a_t)=r(s_t,a_t)+\gamma E_{s_{t+1}~T,a_{t+1}~\pi}[Q(s_{t+1},a_{t+1})]
BπQ(st,at)=r(st,at)+γEst+1~T,at+1~π[Q(st+1,at+1)]
但是事实上,在针对离线数据集时,注意到
s
t
+
1
~
T
s_{t+1}~T
st+1~T这一项是无法获取全部的
s
t
+
1
s_{t+1}
st+1来进行实际估计的,因此本文作者提出了经验Bellman算子
B
^
π
\hat{B}^{\pi}
B^π,定义如下,其中
γ
\gamma
γ为折扣因子(discounted-factor):
B
^
π
Q
(
s
t
,
a
t
)
=
r
^
(
s
t
,
a
t
)
+
γ
E
s
t
+
1
~
T
^
,
a
t
+
1
~
π
[
Q
(
s
t
+
1
,
a
t
+
1
)
]
\hat{B}^{\pi}Q(s_t,a_t)=\hat{r}(s_t,a_t)+\gamma E_{s_{t+1}~\hat{T},a_{t+1}~\pi}[Q(s_{t+1},a_{t+1})]
B^πQ(st,at)=r^(st,at)+γEst+1~T^,at+1~π[Q(st+1,at+1)]
其中,
r
^
(
s
t
,
a
t
)
\hat{r}(s_t,a_t)
r^(st,at)的定义为:
r
^
(
s
t
,
a
t
)
=
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
r
(
s
t
,
a
t
)
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
\hat{r}(s_t,a_t)=\frac{\sum_{s,a \in D}1_{s=s_t,a=a_t}r(s_t,a_t)}{\sum_{s,a \in D}1_{s=s_t,a=a_t}}
r^(st,at)=∑s,a∈D1s=st,a=at∑s,a∈D1s=st,a=atr(st,at)
1.2.3、Bellman 迭代(不感兴趣的读者可以不看)
通过1.2.2的我们给出了
B
π
^
\hat{B^\pi}
Bπ^和
B
π
B^\pi
Bπ的定义。接下来介绍两者相应的Bellman迭代公式:
Q
^
k
+
1
(
s
t
,
a
t
)
=
B
π
Q
^
k
=
r
(
s
t
,
a
t
)
+
γ
E
s
t
+
1
~
T
,
a
t
+
1
~
π
[
Q
^
k
(
s
t
+
1
,
a
t
+
1
)
]
\hat{Q}^{k+1}(s_t,a_t)=B^\pi \hat{Q}^k=r(s_t,a_t)+\gamma E_{s_{t+1}~T,a_{t+1}~\pi}[\hat{Q}^k(s_{t+1},a_{t+1})]
Q^k+1(st,at)=BπQ^k=r(st,at)+γEst+1~T,at+1~π[Q^k(st+1,at+1)]
和
Q
^
k
+
1
(
s
t
,
a
t
)
=
B
^
π
Q
^
k
=
r
^
(
s
t
,
a
t
)
+
γ
E
s
t
+
1
~
T
^
,
a
t
+
1
~
π
[
Q
^
k
(
s
t
+
1
,
a
t
+
1
)
]
\hat{Q}^{k+1}(s_t,a_t)=\hat{B}^\pi \hat{Q}^k=\hat{r}(s_t,a_t)+\gamma E_{s_{t+1}~\hat{T},a_{t+1}~\pi}[\hat{Q}^k(s_{t+1},a_{t+1})]
Q^k+1(st,at)=B^πQ^k=r^(st,at)+γEst+1~T^,at+1~π[Q^k(st+1,at+1)]
首先笔者先给出该Bellman迭代公式的来源证明,这很重要,是后面CQL的理论基础之一
定理1:下两个Bellman优化式等价
(
1
)
Q
k
+
1
(
s
,
a
)
←
a
r
g
m
i
n
Q
E
s
,
a
,
s
′
[
(
r
(
s
,
a
)
+
γ
E
a
′
~
π
[
Q
k
(
s
′
,
a
′
)
]
−
Q
(
s
,
a
)
)
2
]
(1)Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'}[(r(s,a)+\gamma E_{a'~\pi}[Q^k(s',a')]-Q(s,a))^2]
(1)Qk+1(s,a)←argminQEs,a,s′[(r(s,a)+γEa′~π[Qk(s′,a′)]−Q(s,a))2]
(
2
)
Q
k
+
1
(
s
,
a
)
←
r
(
s
,
a
)
+
γ
E
s
′
~
T
,
a
′
~
π
[
Q
k
(
s
′
,
a
′
)
]
(2)Q^{k+1}(s,a)\leftarrow r(s,a)+\gamma E_{s'~T,a'~\pi}[Q^k(s',a')]
(2)Qk+1(s,a)←r(s,a)+γEs′~T,a′~π[Qk(s′,a′)]
证明:
令:
L
(
Q
)
=
E
s
,
a
,
s
′
[
(
r
(
s
,
a
)
+
γ
E
a
′
~
π
[
Q
k
(
s
′
,
a
′
)
]
−
Q
(
s
,
a
)
)
2
]
L(Q)=E_{s,a,s'}[(r(s,a)+\gamma E_{a'~\pi}[Q^k(s',a')]-Q(s,a))^2]
L(Q)=Es,a,s′[(r(s,a)+γEa′~π[Qk(s′,a′)]−Q(s,a))2]
L
(
Q
)
=
∑
s
,
a
∑
s
′
T
(
s
′
∣
s
,
a
)
P
(
s
,
a
)
[
r
(
s
,
a
)
+
γ
∑
a
′
π
(
a
′
∣
s
′
)
Q
k
(
s
′
,
a
′
)
−
Q
(
s
,
a
)
]
2
L(Q)=\sum_{s,a}\sum_{s'}T(s'|s,a)P(s,a)[r(s,a)+\gamma \sum_{a'}\pi(a'|s')Q^k(s',a')-Q(s,a)]^2
L(Q)=s,a∑s′∑T(s′∣s,a)P(s,a)[r(s,a)+γa′∑π(a′∣s′)Qk(s′,a′)−Q(s,a)]2
令
∇
Q
L
(
Q
)
=
0
\nabla_Q L(Q)=0
∇QL(Q)=0会有:
P
(
s
,
a
)
∑
s
′
T
(
s
′
∣
s
,
a
)
[
r
(
s
,
a
)
+
γ
∑
a
′
π
(
a
′
∣
s
′
)
Q
k
(
s
′
,
a
′
)
−
Q
(
s
,
a
)
]
=
0
P(s,a)\sum_{s'}T(s'|s,a)[r(s,a)+\gamma \sum_{a'}\pi(a'|s')Q^k(s',a')-Q(s,a)]=0
P(s,a)s′∑T(s′∣s,a)[r(s,a)+γa′∑π(a′∣s′)Qk(s′,a′)−Q(s,a)]=0这即为
a
r
g
m
i
n
Q
argmin_Q
argminQ:
r
(
s
,
a
)
+
γ
∑
s
′
∑
a
′
T
(
s
′
∣
s
,
a
)
π
(
a
′
∣
s
′
)
Q
k
(
s
′
,
a
′
)
=
Q
(
s
,
a
)
r(s,a)+\gamma \sum_{s'}\sum_{a'}T(s'|s,a)\pi(a'|s')Q^k(s',a')=Q(s,a)
r(s,a)+γs′∑a′∑T(s′∣s,a)π(a′∣s′)Qk(s′,a′)=Q(s,a)简单整理以下发现这就是(2)
r
(
s
,
a
)
+
γ
E
s
′
~
T
,
a
′
~
π
[
Q
k
(
s
′
,
a
′
)
]
=
Q
(
s
,
a
)
→
Q
k
+
1
r(s,a)+\gamma E_{s'~T,a'~\pi}[Q^k(s',a')]=Q(s,a) \rightarrow Q^{k+1}
r(s,a)+γEs′~T,a′~π[Qk(s′,a′)]=Q(s,a)→Qk+1
证毕
定理2:若
∣
r
(
s
,
a
)
∣
≤
R
(
∀
(
s
,
a
)
)
|r(s,a)|\leq R (\forall(s,a))
∣r(s,a)∣≤R(∀(s,a)),则
Q
(
s
,
a
)
≤
R
1
−
γ
Q(s,a)\leq\frac{R}{1-\gamma}
Q(s,a)≤1−γR
证明:
由Bellman迭代我们已经有了
Q
(
s
,
a
)
←
r
(
s
,
a
)
+
γ
E
s
′
~
T
,
a
′
~
π
[
Q
(
s
′
,
a
′
)
]
Q(s,a)\leftarrow r(s,a)+\gamma E_{s'~T,a'~\pi}[Q(s',a')]
Q(s,a)←r(s,a)+γEs′~T,a′~π[Q(s′,a′)]
Q
(
s
0
,
a
0
)
=
r
(
s
0
,
a
0
)
+
γ
E
s
1
~
T
,
a
1
~
π
[
Q
(
s
1
,
a
1
)
]
Q(s_0,a_0)=r(s_0,a_0)+\gamma E_{s_1~T,a_1~\pi}[Q(s_1,a_1)]
Q(s0,a0)=r(s0,a0)+γEs1~T,a1~π[Q(s1,a1)]
Q
(
s
1
,
a
1
)
=
r
(
s
1
,
a
1
)
+
γ
E
s
2
~
T
,
a
2
~
π
[
Q
(
s
2
,
a
2
)
]
Q(s_1,a_1)=r(s_1,a_1)+\gamma E_{s_2~T,a_2~\pi}[Q(s_2,a_2)]
Q(s1,a1)=r(s1,a1)+γEs2~T,a2~π[Q(s2,a2)]
Q
(
s
2
,
a
2
)
=
r
(
s
2
,
a
2
)
+
γ
E
s
3
~
T
,
a
3
~
π
[
Q
(
s
3
,
a
3
)
]
Q(s_2,a_2)=r(s_2,a_2)+\gamma E_{s_3~T,a_3~\pi}[Q(s_3,a_3)]
Q(s2,a2)=r(s2,a2)+γEs3~T,a3~π[Q(s3,a3)]
整理会发现
Q
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
γ
(
r
(
s
t
+
1
,
a
t
+
1
)
)
+
γ
2
(
r
(
s
t
+
2
,
a
t
+
2
)
)
+
⋅
⋅
Q(s_t,a_t)=r(s_t,a_t)+\gamma (r(s_{t+1},a_{t+1}))+\gamma^2(r(s_{t+2},a_{t+2}))+··
Q(st,at)=r(st,at)+γ(r(st+1,at+1))+γ2(r(st+2,at+2))+⋅⋅
这是等比数列,由于Agent不可能无限探索下去,有限步会终止。因此一定会有
∀
(
s
,
a
)
,
Q
(
s
,
a
)
≤
R
1
−
γ
\forall(s,a),Q(s,a) \leq\frac{R}{1-\gamma}
∀(s,a),Q(s,a)≤1−γR证毕
有了以上两个定理。我们首先介绍作者提出的第一个引理,该引理的目的是去衡量经验Bellman算子和Bellman算子的差异性到底有多大
首先,笔者给予一些自己的注释便于大家后续理解,为什么作者要定义这样一个“经验Bellman算子”呢?这是因为
T
T
T与
T
^
\hat{T}
T^的不同所导致的数据集
D
D
D并不包含全部的
s
t
+
1
s_{t+1}
st+1转移情况。
引理1:下列不等式满足在高概率条件下成立(成立的可能性大于 1 − δ 1-\delta 1−δ),并且奖励函数具有上界。则 B π ^ \hat{B^\pi} Bπ^与 B π B^\pi Bπ误差是可控的
1.
r
^
(
s
t
,
a
t
)
与
r
(
s
t
,
a
t
)
\hat{r}(s_t,a_t)与r(s_t,a_t)
r^(st,at)与r(st,at)误差足够的小,并且高概率条件下满足下列不等式**(并不要求处处满足该不等式,而是以高概率满足):其中
C
r
,
δ
C_{r,\delta}
Cr,δ为一个关于
r
r
r和
δ
\delta
δ的常数**
∣
r
^
(
s
t
,
a
t
)
−
r
(
s
t
,
a
t
)
∣
≤
C
r
,
δ
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
|\hat{r}(s_t,a_t)-r(s_t,a_t)|\leq\frac{C_{r,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}
∣r^(st,at)−r(st,at)∣≤∑s,a∈D1s=st,a=at
∣
T
^
(
s
t
+
1
∣
s
t
,
a
t
)
−
T
(
s
t
+
1
∣
s
t
,
a
t
)
∣
≤
C
T
,
δ
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
|\hat{T}(s_{t+1}|s_t,a_t)-T(s_{t+1}|s_t,a_t)|\leq\frac{C_{T,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}
∣T^(st+1∣st,at)−T(st+1∣st,at)∣≤∑s,a∈D1s=st,a=at
在满足1,2两高概率成立条件下,同时满足3条件中Reward有上界。则采样误差满足:
∣
B
π
^
Q
(
s
t
,
a
t
)
−
B
π
Q
(
s
t
,
a
t
)
∣
≤
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|\leq \frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}
∣Bπ^Q(st,at)−BπQ(st,at)∣≤∑s,a∈D1s=st,a=at
证明:
令
∣
B
π
^
Q
(
s
t
,
a
t
)
−
B
π
Q
(
s
t
,
a
t
)
∣
=
B
|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|=B
∣Bπ^Q(st,at)−BπQ(st,at)∣=B可以简单的推导得到:
B
=
∣
r
−
r
^
+
γ
∑
s
t
+
1
(
T
^
−
T
)
E
a
t
~
π
[
Q
(
s
t
,
a
t
)
]
∣
B=|r-\hat{r}+\gamma \sum_{s_{t+1}}(\hat{T}-T) E_{a_t~\pi}[Q(s_t,a_t)]|
B=∣r−r^+γst+1∑(T^−T)Eat~π[Q(st,at)]∣
B
≤
∣
r
−
r
^
∣
+
∣
γ
∑
s
t
+
1
(
T
^
−
T
)
E
a
t
~
π
[
Q
(
s
t
,
a
t
)
]
∣
B\leq|r-\hat{r}|+|\gamma \sum_{s_{t+1}}(\hat{T}-T) E_{a_t~\pi}[Q(s_t,a_t)]|
B≤∣r−r^∣+∣γst+1∑(T^−T)Eat~π[Q(st,at)]∣
B
≤
C
r
,
δ
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
+
∣
γ
∑
s
t
+
1
(
T
^
−
T
)
E
a
t
~
π
[
R
1
−
γ
]
∣
B\leq\frac{C_{r,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}+|\gamma \sum_{s_{t+1}}(\hat{T}-T) E_{a_t~\pi}[\frac{R}{1-\gamma}]|
B≤∑s,a∈D1s=st,a=at
B
≤
C
r
,
δ
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
+
∣
γ
C
T
,
δ
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
[
R
1
−
γ
]
∣
B\leq\frac{C_{r,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}+| \frac{\gamma C_{T,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}[\frac{R}{1-\gamma}]|
B≤∑s,a∈D1s=st,a=at
∣
B
π
^
Q
(
s
t
,
a
t
)
−
B
π
Q
(
s
t
,
a
t
)
∣
≤
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|\leq\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}
∣Bπ^Q(st,at)−BπQ(st,at)∣≤∑s,a∈D1s=st,a=at
1.2.4、Actor-Critic更新方式
在笔者的另一篇文章PPO中已经介绍了策略梯度的更新方式。现在我们还有了Q值的更新方式,因此汇总起来得到如下的Actor-Critic更新方式如下:
Q
k
+
1
(
s
,
a
)
←
a
r
g
m
i
n
Q
E
s
,
a
,
s
′
~
D
[
(
r
(
s
,
a
)
+
γ
E
a
′
~
π
k
[
Q
k
(
s
′
,
a
′
)
]
−
Q
(
s
,
a
)
)
2
]
Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'~D}[(r(s,a)+\gamma E_{a'~{\pi}^k}[Q^k(s',a')]-Q(s,a))^2]
Qk+1(s,a)←argminQEs,a,s′~D[(r(s,a)+γEa′~πk[Qk(s′,a′)]−Q(s,a))2]
π
^
k
+
1
(
a
∣
s
)
←
a
r
g
m
a
x
π
E
s
~
D
,
a
~
π
[
Q
k
+
1
(
s
,
a
)
]
\hat{\pi}^{k+1}(a|s)\leftarrow argmax_\pi E_{s~D,a~\pi}[Q^{k+1}(s,a)]
π^k+1(a∣s)←argmaxπEs~D,a~π[Qk+1(s,a)]
1.2.5、问题描述
Offline RL算法存在一个明显的问题是,数据集
D
D
D是给定好的。我们注意到这一点,在训练的时候,也即
(
s
,
a
,
s
′
)
(s,a,s')
(s,a,s′)这一对是固定好在数据集
D
D
D中的,而数据集
D
D
D是基于用
π
β
(
a
∣
s
)
\pi_\beta(a|s)
πβ(a∣s)采样而得到的。但是在训练的时候我们发现我们训练出来的目标
π
k
(
a
∣
s
)
\pi^k(a|s)
πk(a∣s)是去最大化这个
Q
Q
Q值,换而言之:
π
^
k
(
a
′
∣
s
′
)
←
a
r
g
m
a
x
π
E
s
′
~
D
,
a
′
~
π
[
Q
k
(
s
′
,
a
′
)
]
\hat{\pi}^{k}(a'|s')\leftarrow argmax_\pi E_{s'~D,a'~\pi}[Q^{k}(s',a')]
π^k(a′∣s′)←argmaxπEs′~D,a′~π[Qk(s′,a′)]其实按照常理来讲,更新完了策略以后,应该利用当前所给出的策略去采样一段
(
s
,
a
,
s
′
)
(s,a,s')
(s,a,s′),然后再利用公式:
Q
k
+
1
(
s
,
a
)
←
a
r
g
m
i
n
Q
E
s
,
a
,
s
′
~
D
[
(
r
(
s
,
a
)
+
γ
E
a
′
~
π
^
k
[
Q
k
(
s
′
,
a
′
)
]
−
Q
(
s
,
a
)
)
2
]
Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'~D}[(r(s,a)+\gamma E_{a'~\hat{\pi}^k}[Q^k(s',a')]-Q(s,a))^2]
Qk+1(s,a)←argminQEs,a,s′~D[(r(s,a)+γEa′~π^k[Qk(s′,a′)]−Q(s,a))2]进行更新,以此类推。但是显然的在Offline RL中存在这样的问题,用红色标注
上述公式中的
r
(
s
,
a
)
r(s,a)
r(s,a)在Offline中是无法获取的,因为无法与环境进行探索,这会导致一个问题,很有可能是真实的
(
r
(
s
,
a
)
∣
π
β
)
(r(s,a)|\pi_\beta)
(r(s,a)∣πβ)要比现在固定的
(
r
(
s
,
a
)
∣
π
^
k
)
(r(s,a)|\hat{\pi}^k)
(r(s,a)∣π^k)要低,因为此时的
π
^
k
\hat{\pi}^k
π^k是已经经过优化后的策略了。那么自然的,Offline RL算法存在了最明显也是最薄弱的缺陷之一,即由于不能与环境进行更新互动,导致了真实的Q值要比估计的Q值偏低。这就是最著名的Q值高估问题。
2、CQL算法思想,证明与应用。
这一部分涉及很多理论证明和应用。不感兴趣证明和为什么CQL好的原理的读者,可以直接跳过证明部分只看如何应用CQL即可,无需看本部分证明,而如果想详细了解的读者可以跟随笔者进行证明。
为了便于后续理论部分内容,首先回顾下传统的Q更新方式,已经在第一节介绍过了:
Q
k
+
1
(
s
,
a
)
←
a
r
g
m
i
n
Q
E
s
,
a
,
s
′
~
D
[
(
r
(
s
,
a
)
+
γ
E
a
′
~
π
[
Q
k
(
s
′
,
a
′
)
]
−
Q
(
s
,
a
)
)
2
]
Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'~D}[(r(s,a)+\gamma E_{a'~{\pi}}[Q^k(s',a')]-Q(s,a))^2]
Qk+1(s,a)←argminQEs,a,s′~D[(r(s,a)+γEa′~π[Qk(s′,a′)]−Q(s,a))2]
或者写成
Q
k
+
1
(
s
,
a
)
←
a
r
g
m
i
n
Q
E
s
,
a
[
(
B
π
Q
k
(
s
,
a
)
−
Q
(
s
,
a
)
)
2
]
Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a}[(B^{{\pi}}Q^k(s,a)-Q(s,a))^2]
Qk+1(s,a)←argminQEs,a[(BπQk(s,a)−Q(s,a))2]
根据上述讨论,这样会高估Q值,原文作者提出了一种学习真实Q值函数下界的办法来改善这种状况:
原文作者提出了两种版本的CQL,分别是针对Q值的点态估计下界和关于V值的点态估计下界。在这里我逐一介绍并重证明。
2.1、CQL-version1
注:一个函数
f
(
x
)
f(x)
f(x)的支集定义为
s
p
t
(
f
(
x
)
)
=
{
x
∣
f
(
x
)
≠
0
}
spt(f(x))=\{x|f(x)\neq0 \}
spt(f(x))={x∣f(x)=0}
CQL定理1:对于任意的分布
μ
(
a
∣
s
)
\mu(a|s)
μ(a∣s),因子
α
>
0
\alpha>0
α>0。满足:
s
u
p
p
(
μ
)
⊂
s
u
p
p
(
π
β
)
supp(\mu)\subset supp(\pi_\beta)
supp(μ)⊂supp(πβ)(即
π
β
=
0
\pi_\beta=0
πβ=0
→
\rightarrow
→
μ
=
0
\mu=0
μ=0)时,满足在高概率条件成立中的引理1条件。在因子
α
\alpha
α足够大条件下,下列CQL1估计出的Q值满足:
Q
^
π
(
s
,
a
)
≤
Q
π
(
s
,
a
)
∀
(
s
,
a
)
\hat{Q}^\pi(s,a) \leq Q^\pi(s,a) \forall(s,a)
Q^π(s,a)≤Qπ(s,a)∀(s,a)。额外的,若
B
^
π
=
B
π
\hat{B}^\pi=B^\pi
B^π=Bπ即无采样误差存在,此时无需满足引理1的任何条件。对于任意
α
>
0
\alpha>0
α>0,均有
Q
^
π
(
s
,
a
)
≤
Q
π
(
s
,
a
)
∀
(
s
,
a
)
\hat{Q}^\pi(s,a) \leq Q^\pi(s,a) \forall(s,a)
Q^π(s,a)≤Qπ(s,a)∀(s,a)
CQL1更新方式为:
Q
k
+
1
(
s
,
a
)
←
a
r
g
m
i
n
Q
[
1
2
E
s
,
a
[
(
B
^
π
Q
k
(
s
,
a
)
−
Q
(
s
,
a
)
)
2
]
+
α
E
s
~
D
,
a
~
μ
(
a
∣
s
)
[
Q
(
s
,
a
)
]
]
Q^{k+1}(s,a)\leftarrow argmin_Q[\frac{1}{2}E_{s,a}[(\hat{B}^{{\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha E_{s~D,a~\mu(a|s)}[Q(s,a)]]
Qk+1(s,a)←argminQ[21Es,a[(B^πQk(s,a)−Q(s,a))2]+αEs~D,a~μ(a∣s)[Q(s,a)]]证明:
仿照之前的证明的办法,令
L
(
Q
)
=
[
1
2
E
s
,
a
[
(
B
π
Q
k
(
s
,
a
)
−
Q
(
s
,
a
)
)
2
]
+
α
E
a
~
μ
(
a
∣
s
)
[
Q
(
s
,
a
)
]
]
L(Q)=[\frac{1}{2}E_{s,a}[(B^{{\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha E_{a~\mu(a|s)}[Q(s,a)]]
L(Q)=[21Es,a[(BπQk(s,a)−Q(s,a))2]+αEa~μ(a∣s)[Q(s,a)]],并令
∇
Q
L
(
Q
)
=
0
\nabla_QL(Q)=0
∇QL(Q)=0求解
Q
Q
Q即可。
∇
Q
L
(
Q
)
=
−
∑
s
′
T
^
(
s
′
∣
s
,
a
)
P
(
s
,
a
)
[
r
^
(
s
,
a
)
+
γ
∑
a
′
π
(
a
′
∣
s
′
)
Q
k
(
s
′
,
a
′
)
−
Q
(
s
,
a
)
]
+
α
d
π
β
(
s
)
μ
(
a
∣
s
)
\nabla_QL(Q)=-\sum_{s'}\hat{T}(s'|s,a)P(s,a)[\hat{r}(s,a)+\gamma \sum_{a'}{\pi}(a'|s')Q^k(s',a')-Q(s,a)]+\alpha d^{\pi_\beta}(s)\mu(a|s)
∇QL(Q)=−s′∑T^(s′∣s,a)P(s,a)[r^(s,a)+γa′∑π(a′∣s′)Qk(s′,a′)−Q(s,a)]+αdπβ(s)μ(a∣s)令上式=0会得到
α
d
π
β
(
s
)
μ
(
a
∣
s
)
P
(
s
,
a
)
=
r
^
(
s
,
a
)
+
γ
E
s
′
~
T
^
,
a
′
~
π
[
Q
k
(
s
′
,
a
′
)
]
−
Q
(
s
,
a
)
\frac{\alpha d^{\pi_\beta}(s)\mu(a|s)}{P(s,a)}=\hat{r}(s,a)+\gamma E_{s'~\hat{T},a'~{\pi}}[Q^k(s',a')]-Q(s,a)
P(s,a)αdπβ(s)μ(a∣s)=r^(s,a)+γEs′~T^,a′~π[Qk(s′,a′)]−Q(s,a)这即:
α
μ
(
a
∣
s
)
π
β
(
a
∣
s
)
=
B
^
π
Q
k
(
s
,
a
)
−
Q
(
s
,
a
)
\frac{\alpha\mu(a|s)}{\pi_\beta(a|s)}=\hat{B}^{{\pi}}Q^k(s,a)-Q(s,a)
πβ(a∣s)αμ(a∣s)=B^πQk(s,a)−Q(s,a)整理一下即可得到Q值更新公式:
(
C
Q
L
1
)
Q
k
+
1
(
s
,
a
)
=
B
^
π
Q
k
(
s
,
a
)
−
α
μ
(
a
∣
s
)
π
β
(
a
∣
s
)
(CQL1)Q^{k+1}(s,a)=\hat{B}^{{\pi}}Q^k(s,a)-\frac{\alpha\mu(a|s)}{\pi_\beta(a|s)}
(CQL1)Qk+1(s,a)=B^πQk(s,a)−πβ(a∣s)αμ(a∣s)而我们之前RL中Q得更新公式为
(
R
L
)
Q
k
+
1
(
s
,
a
)
=
B
π
Q
k
(
s
,
a
)
(RL)Q^{k+1}(s,a)=B^{{\pi}}Q^k(s,a)
(RL)Qk+1(s,a)=BπQk(s,a)下面来对比这两个结果,由引理1可以知道已经有了如下不等式估计
∣
B
π
^
Q
(
s
t
,
a
t
)
−
B
π
Q
(
s
t
,
a
t
)
∣
≤
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|\leq\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}
∣Bπ^Q(st,at)−BπQ(st,at)∣≤∑s,a∈D1s=st,a=at
(
C
Q
L
1
)
Q
k
+
1
(
s
t
,
a
t
)
≤
B
π
Q
k
(
s
t
,
a
t
)
+
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
−
α
μ
(
a
∣
s
)
π
β
(
a
∣
s
)
(CQL1)Q^{k+1}(s_t,a_t)\leq B^{{\pi}}Q^k(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a|s)}{\pi_\beta(a|s)}
(CQL1)Qk+1(st,at)≤BπQk(st,at)+∑s,a∈D1s=st,a=at
Q
^
π
(
s
t
,
a
t
)
≤
B
π
Q
^
π
(
s
t
,
a
t
)
+
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
−
α
μ
(
a
t
∣
s
t
)
π
β
(
a
t
∣
s
t
)
\hat{Q}^{\pi}(s_t,a_t)\leq B^{\pi}\hat{Q}^\pi(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}
Q^π(st,at)≤BπQ^π(st,at)+∑s,a∈D1s=st,a=at
B
π
Q
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
γ
E
s
t
+
1
~
T
,
a
t
+
1
~
π
[
Q
(
s
t
+
1
,
a
t
+
1
)
]
B^{\pi}Q(s_t,a_t)=r(s_t,a_t)+\gamma E_{s_{t+1}~T,a_{t+1}~\pi}[Q(s_{t+1},a_{t+1})]
BπQ(st,at)=r(st,at)+γEst+1~T,at+1~π[Q(st+1,at+1)]若令
P
π
Q
(
s
t
,
a
t
)
=
E
s
t
+
1
~
T
,
a
t
+
1
~
π
[
Q
(
s
t
+
1
,
a
t
+
1
)
]
P^\pi Q(s_t,a_t)=E_{s_{t+1}~T,a_{t+1}~\pi}[Q(s_{t+1},a_{t+1})]
PπQ(st,at)=Est+1~T,at+1~π[Q(st+1,at+1)]
则会有
B
π
Q
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
P
π
Q
(
s
t
,
a
t
)
B^{\pi}Q(s_t,a_t)=r(s_t,a_t)+P^\pi Q(s_t,a_t)
BπQ(st,at)=r(st,at)+PπQ(st,at),待到策略稳定时会有:
Q
π
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
P
π
Q
π
(
s
t
,
a
t
)
→
Q
π
(
s
t
,
a
t
)
=
(
I
−
P
π
)
−
1
r
(
s
t
,
a
t
)
Q^\pi(s_t,a_t)=r(s_t,a_t)+P^\pi Q^\pi(s_t,a_t)\rightarrow Q^\pi(s_t,a_t)=(I-P^\pi)^{-1}r(s_t,a_t)
Qπ(st,at)=r(st,at)+PπQπ(st,at)→Qπ(st,at)=(I−Pπ)−1r(st,at)故因此我们会有:
Q
^
π
(
s
t
,
a
t
)
≤
r
(
s
t
,
a
t
)
+
P
π
Q
^
π
(
s
t
,
a
t
)
+
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
−
α
μ
(
a
t
∣
s
t
)
π
β
(
a
t
∣
s
t
)
\hat{Q}^{\pi}(s_t,a_t)\leq r(s_t,a_t)+P^\pi \hat{Q}^\pi(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha\mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}
Q^π(st,at)≤r(st,at)+PπQ^π(st,at)+∑s,a∈D1s=st,a=at
Q
^
π
(
s
t
,
a
t
)
≤
(
I
−
P
π
)
−
1
[
r
(
s
t
,
a
t
)
+
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
−
α
μ
(
a
t
∣
s
t
)
π
β
(
a
t
∣
s
t
)
]
\hat{Q}^{\pi}(s_t,a_t)\leq(I-P^\pi)^{-1}[r(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha\mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]
Q^π(st,at)≤(I−Pπ)−1[r(st,at)+∑s,a∈D1s=st,a=at
Q
^
π
(
s
t
,
a
t
)
≤
Q
π
(
s
t
,
a
t
)
+
(
I
−
P
π
)
−
1
[
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
−
α
μ
(
a
t
∣
s
t
)
π
β
(
a
t
∣
s
t
)
]
\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)+(I-P^\pi)^{-1}[\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]
Q^π(st,at)≤Qπ(st,at)+(I−Pπ)−1[∑s,a∈D1s=st,a=at
Q
^
π
(
s
t
,
a
t
)
≤
Q
π
(
s
t
,
a
t
)
+
(
I
−
P
π
)
−
1
[
−
α
μ
(
a
t
∣
s
t
)
π
β
(
a
t
∣
s
t
)
]
\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)+(I-P^\pi)^{-1}[-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]
Q^π(st,at)≤Qπ(st,at)+(I−Pπ)−1[−πβ(at∣st)αμ(at∣st)]1.当存在采样误差时,并且
α
\alpha
α足够大时候可以保证第二项为负的,这时有
Q
^
π
(
s
t
,
a
t
)
≤
Q
π
(
s
t
,
a
t
)
\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)
Q^π(st,at)≤Qπ(st,at)恒成立。
有趣的是,这个足够大的
α
\alpha
α是可以计算的。事实上读者们会发现当:
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
−
α
μ
(
a
t
∣
s
t
)
π
β
(
a
t
∣
s
t
)
<
0
\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}<0
∑s,a∈D1s=st,a=at
α
≥
m
a
x
s
t
,
a
t
∣
C
r
,
δ
∣
+
∣
γ
C
T
,
δ
R
1
−
γ
∣
∑
s
,
a
∈
D
1
s
=
s
t
,
a
=
a
t
m
a
x
s
t
,
a
t
π
β
(
a
t
∣
s
t
)
μ
(
a
t
∣
s
t
)
\alpha \geq max_{s_t,a_t}\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}max_{s_t,a_t}\frac{\pi_\beta(a_t|s_t)}{\mu(a_t|s_t)}
α≥maxst,at∑s,a∈D1s=st,a=at
Q
^
π
(
s
t
,
a
t
)
≤
Q
π
(
s
t
,
a
t
)
\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)
Q^π(st,at)≤Qπ(st,at)恒成立。
证毕
笔者本部分证对应于下图所示原文的Theorem 3.1,笔者与原文证明略有不同,但是本质是一样的。
接下来将在《Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计)》中主要介绍CQL第二个下界V估计即CQL逐步下界估计中介绍下一个下界算法,这两个是CQL的应用基础,谢谢大家。
本文标签: 下界保守LearningConservativecql
版权声明:本文标题:Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1729755640a1212097.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论