论文笔记之Double Q-learning|电子爱好者

admin管理员组
文章数量:1658730

经典的Q-learning算法因为目标策略的取max步骤使得Q估计值存在过估计现象。Q(s,a)估计的不准确会导致Agent表现力很差，比如原本2个真值 Q ( s , a 0 ) > Q ( s , a 1 ) Q(s,a_0)>Q(s,a_1) Q(s,a0)>Q(s,a1)，但过估计可能会使得收敛时他们的估计值 Q ( s , a 0 ) < Q ( s , a 1 ) Q(s,a_0)<Q(s,a_1) Q(s,a0)<Q(s,a1)。那么根据贪心策略，会出现次优策略。
为了解决过估计这个糟糕的问题，2010年Hasselt在NIPS上发表了Double Q-learning这篇论文。旨在通过引入Double Q-learning算法，以欠估计(underestimation)来替代Q-learning的过估计(overestimation)问题。或者说用低于真值的负估计来解决Q-learning高于真值的正估计问题。

这篇文章让我明白了之前犯得一个错误：误认为DQN中的过估计是因为NN本身的误差引起的（当然也有这个因素），但其实过估计问题主要是因为Q-learning算法本身就存在的，DQN由于基于Q-learning，所以会出现过估计。

Double Q-learning的价值：

作为后续DDQN的基础，来解决连续状态，离散动作的RL问题过估计问题。
作为Double Q-learning的基础，来解决离散状态，离散动作RL问题过估计问题。
作为TD3算法的基础，用以解决DDPG算法中DQN部分过估计问题，来解连续动作下的RL问题。

Double Q-learning论文主要内容：

分析了Q-learning算法的overestimation。
引出了Double Q-learning去解决过估计问题，但是这个算法并不是准确估计的，而是本身会造成underestimation。

Double Q-learning

1 Introduction
2 Estimating the Maximum Expected Value
- 2.1 The single Estimator
- 2.2 The Double Estimator
3 Double Q-learning
- 3.1 Convergence in the Limit
4 Experiments
- 4.1 Roulette
- 4.2 Grid World
5 Discussion
6 Conclusion

Abstract
作者Hasselt指出：

Q-learning因为存在最大化动作值函数而产生过估计问题。
提出了Double Q-learning来解决Q-learning这个缺陷。
Double Q-learning本地也有缺陷：会产生欠估计(underestimation)问题。
作者通过2个实验来凸显出新Q算法和旧Q算法在估计上的表现：即一个欠估计，一个过估计。

1 Introduction

Q-learning是TD算法，是一种结合了DP和MC各自特点的算法。其动作值函数更新公式为：
Q t + 1 ( s t , a t ) = Q t ( s t , a t ) + α t ( s t , a t ) ( r t + γ max ⁡ a Q ( s t + 1 , a ) − Q t ( s t , a t ) ) (1) Q_{t+1}(s_t,a_t) = Q_t(s_t,a_t) +\alpha_t(s_t,a_t)(r_t+ \\\gamma \mathop{\max_a}Q_(s_{t+1},a)-Q_t(s_t,a_t)) \tag{1} Qt+1(st,at)=Qt(st,at)+αt(st,at)(rt+γamaxQ(st+1,a)−Qt(st,at))(1)
式子中， α ∈ [ 0 , 1 ] \alpha\in[0,1] α∈[0,1]是一个根据状态数而衰减的学习率，类似于 ϵ \epsilon ϵ，我们一般都设为固定值。由于TD目标值也是个估计值，所以 α \alpha α的值不应太大。
最优值函数 Q ∗ ( s , a ) Q^*(s,a) Q∗(s,a)根据贝尔曼公式可得：
∀ s , a : Q ∗ ( s , a ) = ∑ s ′ P s a s ′ ( R s a s ′ + γ max ⁡ a Q ∗ ( s ′ , a ) ) = r t + γ ∑ s ′ P s a s ′ max ⁡ a Q ∗ ( s ′ , a ) = E s ′ ∼ ρ ( R s a s ′ + γ max ⁡ a Q ∗ ( s ′ , a ) ) (2) \forall s,a:Q^*(s,a) =\mathop{\sum_{s'}}P_{sa}^{s'}(R_{sa}^{s'}+\gamma \mathop{\max_a}Q^*(s',a)) \\=r_t+\gamma \mathop{\sum_{s'}P_{sa}^{s'}}\mathop{\max_a}Q^*(s',a) \\= \mathbb{E}_{s' \sim\rho}(R_{sa}^{s'}+\gamma \mathop{\max_a}Q^*(s',a)) \tag{2} ∀s,a:Q∗(s,a)=s′∑Psas′(Rsas′+γamaxQ∗(s′,a))=rt+γs′∑Psas′amaxQ∗(s′,a)=Es′∼ρ(Rsas′+γamaxQ∗(s′,a))(2)

从期望中看出，Q-learning由于没有状态转移概率，所以只能通过采样的方式去逼近 E \mathbb{E} E，根据大数定律，无限次采样会达到均值。这里也看出model-free不同于model-based，其实通过n次的采样去做RL任务的。TD算法收敛的过程其实就是在构建一个MDP，通过采样不断去近似状态转移概率。
γ \gamma γ两个作用：①相对未来，更看重眼前的利益，符合人脑的思维方式。②防止RL中出现的周期往复行为导致G太大，比如MC中，如果某次出现G太大，那么会使得算法的方差进一步拉大，增加了收敛的难度。
作者还提出了一些可以增加Q-learning收敛速度的论文，比如Delayed Q-learning，Phased Q-learning，Fitted Q-learning等

Contributions：
作者提出一种双估计器，相比于基于单估计器的Q-learning而言，他不会产生过估计，但是会有欠估计。基于双估计思想与Q-learning，作者提出了Double Q-learning这种新算法。
接下去论文的组织顺序：

第2节：使用单、双估计器来近似一系列R.V.的期望的最大值。
第3节：提出Double Q-learning算法，并证明其收敛性。
第4节：根据实验来得出Double Q-learning的特性以及和Q-learning的比对。
第5、6节：总结与展望。

2 Estimating the Maximum Expected Value

全文的研究以用2种估计器(单、双估计)来近似估计一系列R.V.的最大期望值：
M个随机变量 X = X 1 , X 2 . . . , X M X={X_1,X_2...,X_M} X=X1,X2...,XM。
研究对象为：
max ⁡ i E ( X i ) (3) \mathop{\max_i}\mathbb{E}(X_i) \tag{3} imaxE(Xi)(3)
单估计器的做法是通过最大化一系列R.V.估计值的期望值来估计这个研究对象，即 max ⁡ i E { X i } = max ⁡ i E { μ i } ≈ max ⁡ i μ i ( S ) \mathop{\max_i}\mathbb{E}\{X_i\}=\mathop{\max_i}\mathbb{E}\{\mu_i\}\approx \mathop{\max_i}\mu_i(S) imaxE{Xi}=imaxE{μi}≈imaxμi(S)这种做法使得其实不是无偏的，会产生正偏差的。这点会在2.1节得到证明。
双估计器的做法是通过解耦R.V.估计值和R.V.估计器。这种做法也不是对目标的无偏估计，会产生负偏差，但是其避免了过估计，即正偏差。
Note：

随机变量 X i X_i Xi的估计器用 μ i \mu_i μi表示。
μ i \mu_i μi是 X i X_i Xi的无偏估计，i.g. E { X i } = E { μ i } \mathbb{E}\{X_i\}=\mathbb{E}\{\mu_i\} E{Xi}=E{μi}
为了更好地理解这一节内容，你可以把 X i X_i Xi当做Q-learning中的 Q ( S , a i ) Q(S,a_i) Q(S,ai)真值，把 μ i \mu_i μi当做 Q ( S , a i ) Q(S,a_i) Q(S,ai)的估计值。

为了下面的分析，需要提前定义一些符号：
设 S = ⋃ i = 1 M S i S=\bigcup_{i=1}^MS_i S=⋃i=1MSi，其中子集 S i S_i Si是对于 X i X_i Xi采集的样本集合。根据概率论的基础知识， S i S_i Si中的样本之间服从iid条件(独立同分布)。故：
E { X i } = E { μ i } ≈ μ i ( S ) = d e f 1 ∣ S i ∣ ∑ s ∈ S i s \mathbb{E}\{X_i\}=\mathbb{E}\{\mu_i\}\approx\mu_i(S) \overset{def}{=}\frac{1}{|S_i|}\sum_{s\in S_i}s E{Xi}=E{μi}≈μi(S)=def∣Si∣1s∈Si∑s
u i ( S ) u_i(S) ui(S)是 E { X i } \mathbb{E}\{X_i\} E{Xi}的无偏估计，我们都知道误差取决预bias和var，因此在这种情况下想要降低error，就得通过继续采集样本来降低var。

这一节的末尾作者提了下概率论中的基础概念：概率密度PDF以及累积分布函数CDF，两者是求导积分的关系。
定义：
F i ( x ) = ∫ − ∞ x f i ( x ) d x m a x i E { X i } = m a x i ∫ − ∞ ∞ x f i ( x ) d x F_i(x)=\int_{- \infty}^x f_i(x)\mathrm{d}x \\max_iE\{X_i\} = max_i\int_{-\infty}^{\infty}xf_i(x) \mathrm{d}x Fi(x)=∫−∞xfi(x)dxmaxiE{Xi}=maxi∫−∞∞xfi(x)dx

2.1 The single Estimator

Q-learning就是使用单估计器来估计Q真值的。
接下来作者就开始分析单估计器是如何估计式(3)的。
其实正如上面分析那样，单估计的原理就是借鉴矩估计法：
max ⁡ i E { X i } = max ⁡ i E { μ i } ≈ max ⁡ i μ i ( S ) (4) \mathop{\max_i}\mathbb{E}\{X_i\}=\mathop{\max_i}\mathbb{E}\{\mu_i\}\approx \mathop{\max_i}\mu_i(S) \tag{4} imaxE{Xi}=imaxE{μi}≈imaxμi(S)(4)
但是呢，虽然矩估计 E { X i } = E { μ i } ≈ μ i ( S ) \mathbb{E}\{X_i\}=\mathbb{E}\{\mu_i\}\approx\mu_i(S) E{Xi}=E{μi}≈μi(S)是无偏估计等式，但是式(4)对目标的估计却不是无偏的，乍一看无非从矩估计法外面加个 m a x max max而已，很合理的逻辑，但已不是无偏估计了，而是有偏估计，这也就是单估计器因 m a x max max产生过估计的原因。下面会证明估计会产生正向偏差。

证明过程：

设 μ i \mu_i μi的PDF为 f i μ f_i^\mu fiμ。则 max ⁡ i u i \mathop{\max_i}u_i maxiui的PDF为 f m a x μ f^\mu_{max} fmaxμ，CDF为 F m a x μ F^\mu_{max} Fmaxμ
故 F m a x μ ( x ) = P ( m a x i μ i ≤ x ) = ∏ i = 1 M P ( μ i ≤ x ) = d e f ∏ i = 1 M F i μ ( x ) F^\mu_{max}(x)=\mathbf{P}(max_i\mu_i\leq x)=\prod^M_{i=1}\mathbf{P}(\mu_i\leq x) \overset{def}{=}\prod^M_{i=1}F^\mu_i(x) Fmaxμ(x)=P(maxiμi≤x)=∏i=1MP(μi≤x)=def∏i=1MFiμ(x)。
继续，
m a x i μ i ( S ) max_i\mu_i(S) maxiμi(S)是 E { m a x i μ i } = ∫ − ∞ ∞ x f m a x μ ( x ) d x \mathbb{E}\{max_i\mu_i\}=\int^\infty_{-\infty}xf^\mu_{max}(x)\mathrm{d}x E{maxiμi}=∫−∞∞xfmaxμ(x)dx的无偏估计(这个地方作者直接给的结论，至于为啥这是无偏估计，我不知道咋证明，有知道的麻烦告知，这里就当个结论来记吧) 。
单估计器过估计的关键：
E { max ⁡ i μ j } = ∫ − ∞ ∞ x d d x ∏ i = 1 M F i μ ( x ) d x = ∑ j M ∫ − ∞ ∞ x f j μ ( s ) ∏ i ≠ j M F i μ ( x ) d x (5) \mathbb{E}\{\mathop{\max_i}\mu_j\}=\int^\infty_{-\infty}x\frac{d}{\mathrm{d}x}\prod^M_{i=1}F_i^\mu(x)\mathrm{d}x \\=\sum^M_j\int^\infty_{-\infty}xf^\mu_j(s)\prod^M_{i\neq j}F^\mu_i(x)\mathrm{d}x \tag{5} E{imaxμj}=∫−∞∞xdxdi=1∏MFiμ(x)dx=j∑M∫−∞∞xfjμ(s)i=j∏MFiμ(x)dx(5)
Note：
从这个式(5)可以看出， ∑ i ≠ j M F i μ \sum^M_{i\neq j}F_i^\mu ∑i=jMFiμ是单调递增的，且 x x x在积分内，因此这个整体的值有可能会很大，也暗示了过估计的可能。

根据这篇论文的补充材料(NIPS官网可寻)中的Lemma1所示：

i.g.
E { max ⁡ i μ i } ≥ max ⁡ i E { μ i } \mathbb{E}\{\max_i\mu_i\}\ge \max_i\mathbb{E}\{\mu_i\} E{imaxμi}≥imaxE{μi}
单估计器通过采样，即 1 ∣ S i ∣ ∑ s ∈ S i s \frac{1}{|S_i|}\sum_{s\in S_i}s ∣Si∣1∑s∈Sis来估计我们的目标 max ⁡ i E { X i } \max_i\mathbb{E}\{X_i\} maxiE{Xi}。但是根据上述结论，这种采样方式是 E { max ⁡ i μ i } \mathbb{E}\{\max_i\mu_i\} E{maxiμi}的无偏估计，而根据Lemma1可知，单估计器对 max ⁡ i E { X i } \max_i\mathbb{E}\{X_i\} maxiE{Xi}的估计是有偏差的，且是正偏差，即过估计。因此，我们可以得出结论：单估计器对max的估计是有偏差的，且是正偏差，根本原因在于：
E { max ⁡ i μ i } ≥ max ⁡ i E { μ i } \mathbb{E}\{\max_i\mu_i\}\ge \max_i\mathbb{E}\{\mu_i\} E{imaxμi}≥imaxE{μi}

2.2 The Double Estimator

接下来作者会用一种新的估计器去估计 m a x i E { X i } max_i\mathbb{E}\{X_i\} maxiE{Xi}。这个新的估计器叫Double estimator。他需要用到2个估计器 μ A = { μ 1 A , . . . , μ M A } \mu^A=\{\mu_1^A,...,\mu_M^A\} μA={μ1A,...,μMA}以及 μ B = { μ 1 B , . . . , μ M B } \mu^B=\{\mu_1^B,...,\mu_M^B\} μB={μ1B,...,μMB}。另外，类似于单估计器，定义：

S = S A ∪ S B S=S^A\cup S^B S=SA∪SB，且 S A ∩ S B = ∅ S^A\cap S^B=\varnothing SA∩SB=∅。
μ i A ( S ) = 1 ∣ S i A ∣ ∑ s ∈ S i A s , μ i B ( S ) = 1 ∣ S i B ∣ ∑ s ∈ S i B s \mu^A_i(S)=\frac{1}{|S_i^A|}\sum_{s\in S_i^A}s,\mu^B_i(S)=\frac{1}{|S_i^B|}\sum_{s\in S_i^B}s μiA(S)=∣SiA∣1∑s∈SiAs,μiB(S)=∣SiB∣1∑s∈SiBs，各自样本都要服从iid条件。
μ i A , μ i B \mu^A_i,\mu^B_i μiA,μiB仍是 X i X_i Xi的无偏估计，且两者相互独立，这个独立体现在各自采样时自己采自己的。双方估计器互相独立的好处在于有利于解耦，当在第j号估计器通过采样出现过估计时，只要在B中对应的第j号估计器通过采样得到的没有出现过估计，那么最后估计就不会出现正偏差；当B中第j号估计器会出现过估计时，只要A不要选出第j号，那么最后估计就不会出现正偏差。从此可见双估计器利用的就是双方采样的差异性大，随机性强，各自单估计的话出现结果的差异大，这就是上面第1条的原因。我们不妨从极端考虑，如果双方采样样本一模一样，那么解耦就没有意义了！
M a x A ( S ) = d e f { j ∣ μ j A ( S ) = m a x i μ i A ( S ) } Max^A(S)\overset{def}{=}\{j|\mu^A_j(S)=max_i\mu_i^A(S)\} MaxA(S)=def{j∣μjA(S)=maxiμiA(S)}是一个保存最大 μ A ( S ) \mu^A(S) μA(S)对应估计器的序号。

显然对于 E { μ j B } = E { X j } \mathbb{E}\{\mu_j^B\}=\mathbb{E}\{X_j\} E{μjB}=E{Xj}的 j ∈ [ 1 , M ] j\in[1,M] j∈[1,M]，意味着包括 j ∈ M a x A ( S ) j\in Max^A(S) j∈MaxA(S)。

定义 a ∗ a^* a∗为最大化 μ A ( S ) \mu^A(S) μA(S)的那个估计器 μ a ∗ A \mu^A_{a^*} μa∗A,
i.g. μ a ∗ A ( S ) = d e f m a x i μ i A ( S ) \mu^A_{a^*}(S)\overset{def}{=}max_i\mu^A_i(S) μa∗A(S)=defmaxiμiA(S)，显然 a ∗ ∈ M a x A ( S ) a^*\in Max^A(S) a∗∈MaxA(S)。如果这个集合例有多个估计器，那就随机抽选一个估计器出来。

接下来就可以引入Double估计器的核心思想：
用 μ a ∗ B ( S ) \mu^B_{a^*}(S) μa∗B(S)这个采样值来作为 m a x i E { μ i B } max_i\mathbb{E}\{\mu_i^B\} maxiE{μiB}的估计值。通俗一点来讲就是，用A中的最大估计器对应的序号去寻找B中该序号对应的估计器，这个估计器就是我们需要的那个。
数学表达式：
max ⁡ i E { X i } = max ⁡ i E { μ i B } ≈ μ a ∗ B ( S ) (6) \max_i\mathbb{E}\{X_i\} = \max_i\mathbb{E}\{\mu_i^B\}\approx\mu^B_{a^*}(S) \tag{6} imaxE{Xi}=imaxE{μiB}≈μa∗B(S)(6)
Note：

虽然采用解耦2个估计器来估计目标，但其实本质还是利用了矩估计法。因此随着采样增多，估计的方差会不断减小，当采样无限次时， μ i A ( S ) = μ i B ( S ) = E { X i } \mu_i^A(S)=\mu_i^B(S)=\mathbb{E}\{X_i\} μiA(S)=μiB(S)=E{Xi},且式(6)最终将会收敛到一个正确的值，关于收敛性的证明后面将会以证明Double Q-learning收敛性来展现。

分析：
如果PDF是连续的话（离散同理）：
定义 P ( j = a ∗ ) = ∫ − ∞ ∞ P ( μ j A = x ) ∏ i ≠ j M P ( μ i A < x ) d x = d e f ∫ − ∞ ∞ f j A ( x ) ∏ i ≠ j M F i A ( x ) d x \mathbf{P}(j=a^*)=\int_{-\infty}^\infty\mathbf{P}(\mu_j^A=x)\prod^M_{i\neq j}\mathbf{P}(\mu_i^A<x)\mathrm{d}x \\\overset{def}{=}\int_{-\infty}^\infty f_j^A(x)\prod^M_{i\neq j}F_i^A(x)\mathrm{d}x P(j=a∗)=∫−∞∞P(μjA=x)i=j∏MP(μiA<x)dx=def∫−∞∞fjA(x)i=j∏MFiA(x)dx其中， f i A , F i A f_i^A,F_i^A fiA,FiA是 μ i A \mu_i^A μiA的PDF和CDF。这里 P ( μ j A = x ) \mathbf{P}(\mu_j^A=x) P(μjA=x)本来应该是为0的，这里参考了最大似然估计里面的处理方式，将其定义为概率密度 f A ( x ) f^A(x) fA(x)。
又因为 μ a ∗ B ( S ) \mu^B_{a^*}(S) μa∗B(S)是 E { μ a ∗ B } \mathbb{E}\{\mu^B_{a^*}\} E{μa∗B}的无偏估计，故：
E { μ a ∗ B } = ∑ j M P ( j = a ∗ ) E { μ j B } = ∑ j M E { μ j B } ∫ − ∞ ∞ f j A ( x ) ∏ i ≠ j M F i A ( x ) d x (7) \mathbb{E}\{\mu^B_{a^*}\} = \sum^M_j\mathbf{P}(j=a^*)\mathbb{E}\{\mu_j^B\} \\=\sum^M_j\mathbb{E}\{\mu_j^B\} \int_{-\infty}^\infty f_j^A(x)\prod^M_{i\neq j}F_i^A(x)\mathrm{d}x \tag{7} E{μa∗B}=j∑MP(j=a∗)E{μjB}=j∑ME{μjB}∫−∞∞fjA(x)i=j∏MFiA(x)dx(7)
Note：

M a x A ( S ) Max^A(S) MaxA(S)中可能存在多个 a ∗ a^* a∗。
P 之和为 1 \mathbf{P}之和为1 P之和为1，因此 ∑ j M P ( j = a ∗ ) E { μ j B } \sum^M_j\mathbf{P}(j=a^*)\mathbb{E}\{\mu_j^B\} ∑jMP(j=a∗)E{μjB}可以看成一个期望 E \mathbb{E} E。而期望是均值，一定小于其R.V.的最大值，即： E { μ a ∗ B } ≤ max ⁡ i E { μ i B } = max ⁡ i E { X i } \mathbb{E}\{\mu_{a^*}^B\}\leq \max_i\mathbb{E}\{\mu_i^B\}=\max_i \mathbb{E}\{X_i\} E{μa∗B}≤imaxE{μiB}=imaxE{Xi}这个式子告诉我们：你通过采用获得的 E { μ a ∗ B } \mathbb{E}\{\mu_{a^*}^B\} E{μa∗B}去估计目标的话，会低于目标值，即欠估计，或者说产生负偏差。

上述的2不能算证明，接下来作者给出了类似于单估计器中的证明方式，正文的引理1以及其证明如下：

证明中需要用到条件期望与全期望公式，过程与单估计器那个Lemma几乎一样，只不过多一个估计器 μ B \mu^B μB。

3 Double Q-learning

这一节是将第2节的单双估计器用于实战—Q-learning算法中，用单估计器来解释Q-learning算法过估计的问题。然后引出基于双估计器的Double Q-learning算法。
在Q-learning算法中，对 ∀ ( s , a ) , Q ( s , a ) \forall(s,a),Q(s,a) ∀(s,a),Q(s,a)都有其真值，基于单估计器思想，我们通过不断采样trans，用 Q ( s , a ) Q(s,a) Q(s,a)估计器（用Q表存储或者神将网络）使用TD算法来近似这个真值。其通过软更新的方式其实就是单估计器中借鉴矩估计法的思想，会对 m a x max max估计产生正偏差。具体的，Q-learning的更新公式如式(1)所示，TD算法是MC和DP的结合，TD算法的更新本质就是通过矩估计法得出Q值来近似Q真值。将 m a x a Q t ( s t + 1 , a ) max_aQ_t(s_{t+1},a) maxaQt(st+1,a)看成是 Q ( s , a ) Q(s,a) Q(s,a)的样本值，即：
Q 真值 ( s , a ) ⇐ E { m a x a Q t ( s t + 1 , a ) } Q_{真值}(s,a)\Leftarrow \mathbb{E}\{max_aQ_t(s_{t+1},a)\} Q真值(s,a)⇐E{maxaQt(st+1,a)}
但其实Q-learning算法更新的思想是用最大化下个状态的Q值来作为当前状态的Q值，即：
Q 真值 ( s , a ) ≤ max ⁡ a E { Q t ( s t + 1 , a ) } Q_{真值}(s,a)\leq \max_a \mathbb{E}\{Q_t(s_{t+1},a)\} Q真值(s,a)≤amaxE{Qt(st+1,a)}
Note:
这里原文并没有详细说明Q真值是这样的形式，我个人理解是这样的：Q-learning使用TD方法去更新 Q Q Q值，是一种基于贝尔曼等式的更新方法（严格来说，时序差分是结合了MC和DP的一种综合性方法:）：
Q π ( s , a ) = r + γ E s ′ , a ′ [ Q π ( s ′ , a ′ ) ] a ′ ∼ π ( s ′ ) , s ′ ∼ ρ π ( s ′ ) Q^\pi(s,a)=r+\gamma\mathbb{E}_{s',a'}[Q^\pi(s',a')]\\ a'\sim\pi(s'),s'\sim\rho^\pi(s') Qπ(s,a)=r+γEs′,a′[Qπ(s′,a′)]a′∼π(s′),s′∼ρπ(s′)Note:
这种双采样的期望写法是因为采样对象都是基于全局空间，根据贝尔曼等式，索性直接写成采样对 < s ′ , a ′ > <s',a'> <s′,a′>的形式。这种形式简洁易懂，更利于代码开发，TD3论文中就引用这种写法。当然也可以像DDPG论文写的那样：两种写法都是可以的。

理想情况下，TD算法就这样的，但是由于必须通过采用来实现，因此只能说近似于上式，这里需要注意的是，Q-learning只是TD算法中的一种，也就是上式中的 π ( s ′ ) \pi(s') π(s′)为贪婪策略。因为要说明Q-learning的缺陷，因此必须拿出标准的式子来做比较，简化上式：
Q 真值 ( s , a ) ⇐ E a ∼ π { Q t ( s t + 1 , a ) } Q_{真值}(s,a)\Leftarrow \mathbb{E}_{a\sim\pi}\{Q_t(s_{t+1},a)\} Q真值(s,a)⇐Ea∼π{Qt(st+1,a)}
为了便于 m a x max max之间的比较，进一步给出如下关系：
E a ∼ π , s ′ ∼ ρ π ( s ′ ) { Q t ( s t + 1 , a ) } ≤ max ⁡ a E s ′ ∼ ρ π ( s ′ ) { Q t ( s t + 1 , a ) } \mathbb{E}_{a\sim\pi,s'\sim\rho^\pi(s')}\{Q_t(s_{t+1},a)\}\leq\max_a \mathbb{E}_{s'\sim\rho^\pi(s')}\{Q_t(s_{t+1},a)\} Ea∼π,s′∼ρπ(s′){Qt(st+1,a)}≤amaxEs′∼ρπ(s′){Qt(st+1,a)}

(为了简化，接下来 E \mathbb{E} E的下标 s ′ ∼ ρ π ( s ′ ) s'\sim\rho^\pi(s') s′∼ρπ(s′)将省略)
根据2.1节，将 μ i \mu_i μi看作 Q ( s t + 1 , a i ) Q(s_{t+1},a_i) Q(st+1,ai)，则易知:
E { m a x a Q t ( s t + 1 , a ) } ≥ max ⁡ a E { Q t ( s t + 1 , a ) } \mathbb{E}\{max_aQ_t(s_{t+1},a)\}\ge \max_a \mathbb{E}\{Q_t(s_{t+1},a)\} E{maxaQt(st+1,a)}≥amaxE{Qt(st+1,a)}也就是说，我们辛苦采样而来的trans，然后去估计的 Q ( s , a ) Q(s,a) Q(s,a)会有正偏差，即过估计。

我们从2.2节知道Double估计器可以解决过估计问题，因此将双估计器用在Q-learning上就得到了负偏差的Double Q-learning。
Double Q-learning:
基于双估计器，要设置 Q A Q^A QA和 Q B Q^B QB两个Q函数。令 a ∗ = arg max ⁡ a Q ( s ′ , a ) a^*=\argmax_aQ(s',a) a∗=aargmaxQ(s′,a)。这里我们不用 Q A ( s ′ , a ∗ ) = m a x a Q A ( s ′ , a ) Q^A(s',a^*)=max_aQ^A(s',a) QA(s′,a∗)=maxaQA(s′,a)去更新 Q A ( s , a ) Q^A(s,a) QA(s,a)，而是用 Q B ( s ′ , a ∗ ) Q^B(s',a^*) QB(s′,a∗)去更新 Q A ( s , a ) Q^A(s,a) QA(s,a)。
Note:

同理我们用 Q A ( s ′ , b ∗ ) Q^A(s',b^*) QA(s′,b∗)去更 Q B ( s , a ) Q^B(s,a) QB(s,a)。
另外，两个估计器是互相独立的，也就是采样都是各自采各自的。

Double Q-learning的缺陷：欠估计
i . g . E { Q B ( s ′ , a ∗ ) } ≤ max ⁡ a E { Q A ( s ′ , a ∗ ) } i.g. \mathbb{E}\{Q^B(s',a^*)\}\leq\max_a\mathbb{E}\{Q^A(s',a^*)\} i.g.E{QB(s′,a∗)}≤amaxE{QA(s′,a∗)}

3.1 Convergence in the Limit

Note：

文章正文有Lemma1,Lemma2,Theorem1；补充材料有Lemma1；参考论文中有Theorem2,Theorem3。
整个证明过程会出现 F t ( s t , a t ) , F t Q ( s t , a t ) , F t A ( s t , a t ) , F t B ( s t , a t ) , F t B A ( s t , a t ) F_t(s_t,a_t),F_t^Q(s_t,a_t),F_t^A(s_t,a_t),F^B_t(s_t,a_t),F_t^{BA}(s_t,a_t) Ft(st,at),FtQ(st,at),FtA(st,at),FtB(st,at),FtBA(st,at)这几个 F \mathbf{F} F。

Double Q-learning算法：

本节是作者利用Lemma2对Theorem1证明，从而证明Double Q-learning算法的收敛性。
引理2如下：

需要注意的是本论文中 ∥ ⋅ ∥ \lVert \cdot\rVert ∥⋅∥代表最大范数(无穷范数)
定理如下：

证明过程图如下：

需要使用到Q-learning收敛性证明以及1个定理，参考文献如下：

Convergence of Stochastic Iterative Dynamic Programming Algorithms
Q-learning

Note：

引用Q-learning这篇文章主要需要注意以下的写法，这里 V ≠ V π V\ne V^\pi V=Vπ：
为了便于证明Double Q-learning，我把Convergence这篇文章里的Theorem1、Theorem2添加进来，重命名为Theorem2、Theorem3。
Theorem3中的 c c c表示实时奖励 r r r。

Double Q-learning证明如下：
。。。。。。

第①步：Q-learning收敛性证明
我们要用Theorem2来证明Theorem3，即Q-learning的 Q ( s t , a t ) Q(s_t,a_t) Q(st,at)能收敛至 Q ∗ ( s t , a t ) Q^*(s_t,a_t) Q∗(st,at)。
显然Theorem3可以轻松满足Theorem2，对于Theorem2(4)，只需要在Theorem3(4)的基础上满足F可以是Q的线性函数即可推出(比较松的条件)。因此关键在于如何证明Theorem2的条件(3)：
首先定义： Δ t ( s , a ) = Q t ( s , a ) − Q ∗ ( s , a ) F t ( s , a ) = r + γ max ⁡ a Q t ( s ′ , a ) − Q ∗ ( s , a ) β t ( s , a ) = α t ( s , a ) \Delta_t(s,a)=Q_t(s,a)-Q^*(s,a) \\F_t(s,a)=r+\gamma\max_aQ_t(s',a)-Q^*(s,a) \\\beta_t(s,a)=\alpha_t(s,a) Δt(s,a)=Qt(s,a)−Q∗(s,a)Ft(s,a)=r+γamaxQt(s′,a)−Q∗(s,a)βt(s,a)=αt(s,a)
Theorem3中的 V V V函数根据Q-learning这篇论文中的Q-learning更新公式变体，可知其实就是 m a x Q maxQ maxQ函数，因此：
Q t + 1 ( s t , a t ) = ( 1 − α t ( s t , a t ) ) Q t ( s t , a t ) + α t ( s t , a t ) [ r + γ V t ( s t + 1 ) ] Q t + 1 ∗ ( s t , a t ) = Q t ∗ ( s t , a t ) = Q t ∗ ( s t , a t ) + α t ( s t , a t ) [ Q ∗ ( s t , a t ) − Q ∗ ( s t , a t ) ] 第二个其实就是不更新了，毕竟达到了最优两者相减： Δ t + 1 = Q t + 1 ( s t , a t ) − Q t + 1 ∗ ( s t , a t ) = ( 1 − α t ( s t , a t ) ) Δ t + α t ( s t , a t ) [ r + γ V ( s t + 1 − Q ∗ ( s t , a t ) ) ] = ( 1 − α t ( s t , a t ) ) Δ t + α t ( s t , a t ) F t ( s , a ) Q_{t+1}(s_t,a_t)=(1-\alpha_t(s_t,a_t))Q_t(s_t,a_t)+\alpha_t(s_t,a_t)[r+\gamma V_t(s_{t+1})] \\Q^*_{t+1}(s_t,a_t)=Q^*_t(s_t,a_t)=Q^*_t(s_t,a_t)+\alpha_t(s_t,a_t)[Q^*(s_t,a_t)-Q^*(s_t,a_t)] \\第二个其实就是不更新了，毕竟达到了最优 \\两者相减： \\\Delta_{t+1}=Q_{t+1}(s_t,a_t)-Q^*_{t+1}(s_t,a_t) \\=(1-\alpha_t(s_t,a_t))\Delta_t+\alpha_t(s_t,a_t)[r+\gamma V(s_{t+1}-Q^*(s_t,a_t))] \\=(1-\alpha_t(s_t,a_t))\Delta_t+\alpha_t(s_t,a_t)F_t(s,a) Qt+1(st,at)=(1−αt(st,at))Qt(st,at)+αt(st,at)[r+γVt(st+1)]Qt+1∗(st,at)=Qt∗(st,at)=Qt∗(st,at)+αt(st,at)[Q∗(st,at)−Q∗(st,at)]第二个其实就是不更新了，毕竟达到了最优两者相减：Δt+1=Qt+1(st,at)−Qt+1∗(st,at)=(1−αt(st,at))Δt+αt(st,at)[r+γV(st+1−Q∗(st,at))]=(1−αt(st,at))Δt+αt(st,at)Ft(s,a)
关键在于Theorem2的条件(3)证明：

因此，在 P n P_n Pn环境下（MDP），Theorem3符合Theorem2的4个条件，故 Δ t + 1 = Q t + 1 ( s t , a t ) − Q t + 1 ∗ ( s t , a t ) → 0 \Delta_{t+1}=Q_{t+1}(s_t,a_t)-Q^*_{t+1}(s_t,a_t)\to0 Δt+1=Qt+1(st,at)−Qt+1∗(st,at)→0，i.g.Q-learning算法可以收敛。

接下来②-⑥步就是用Lemma2来证明Theorem1：
通过 ϵ − g r e e d y \epsilon-greedy ϵ−greedy这样的探索策略去遍历各个状态动作对，理想状态是无限次，但是MDP必须是有限的，即有限的状态、动作空间。
在满足Theorem1的6个条件下定义：
P t = { Q 0 A , A 0 B , s 0 , a 0 , α 0 , r 1 , s 1 , . . . , s t , a t } X = S × A Δ t = Q t A − Q ∗ ζ = α F t ( s t , a t ) = r t + γ Q t B ( s t + 1 , a ∗ ) − Q t ∗ ( s t , a t ) , a ∗ = arg max ⁡ a Q A ( s t + 1 , a ) \mathbf{P}_t=\{Q_0^A,A^B_0,s_0,a_0,\alpha_0,r_1,s_1,...,s_t,a_t\} \\X=S\times A \\\Delta_t=Q_t^A-Q^* \\\zeta=\alpha \\F_t(s_t,a_t)=r_t+\gamma Q_t^B(s_{t+1},a^*)-Q_t^*(s_t,a_t),a^*=\argmax_aQ^A(s_{t+1},a) Pt={Q0A,A0B,s0,a0,α0,r1,s1,...,st,at}X=S×AΔt=QtA−Q∗ζ=αFt(st,at)=rt+γQtB(st+1,a∗)−Qt∗(st,at),a∗=aargmaxQA(st+1,a)
和第①步中证明一样，Lemma2的条件(1)(2)(4)很容易满足，条件(4)只需要Theorem1的(6)即可推出。关键在于条件(3)的推导，在接下来的证明过程中国，这个条件(3)需要被证明2次。

第②步：证明 Δ t B A → 0 \Delta_t^{BA}\to 0 ΔtBA→0
重新定义 F t ( s t , a t ) = F t Q ( s t , a t ) + γ ( Q t B ( s t + 1 , a ∗ ) − Q t A ( s t + 1 , a ∗ ) ) F t Q = r t + γ Q t A ( s t + 1 , a ∗ ) − Q t ∗ ( s t , a t ) 其中 c t = γ ( Q t B ( s t + 1 , a ∗ ) − Q t A ( s t + 1 , a ∗ ) ) Δ t B A = Q t B − Q t A F_t(s_t,a_t)=F_t^Q(s_t,a_t)+\gamma(Q_t^B(s_{t+1},a^*)-Q_t^A(s_{t+1},a^*)) \\F_t^Q=r_t+\gamma Q_t^A(s_{t+1},a^*)-Q_t^*(s_t,a_t) \\其中c_t=\gamma (Q^B_t(s_{t+1},a^*)-Q^A_t(s_{t+1},a^*)) \\\Delta_t^{BA}=Q_t^B-Q_t^A Ft(st,at)=FtQ(st,at)+γ(QtB(st+1,a∗)−QtA(st+1,a∗))FtQ=rt+γQtA(st+1,a∗)−Qt∗(st,at)其中ct=γ(QtB(st+1,a∗)−QtA(st+1,a∗))ΔtBA=QtB−QtA
Δ t B A \Delta_t^{BA} ΔtBA的更新取决于更新 Q A Q^A QA还是 Q B Q^B QB：
当更新 Q A Q^A QA时： Q t + 1 B ( s t , a t ) = Q t B ( s t , a t ) Q t + 1 A ( s t , a t ) = Q t A ( s t , a t ) + α t ( s t , a t ) ( r + γ Q B ( s t + 1 , a ∗ ) − Q t A ( s t , a t ) ) 两式相减： Δ t + 1 B A ( s t , a t ) = Δ t B A ( s t , a t ) − α t ( s t , a t ) F t A ( s t , a t ) 其中 F t A ( s t , a t ) = r + γ Q B ( s t + 1 , a ∗ ) − Q t A ( s t , a t ) Q_{t+1}^B(s_t,a_t)=Q^B_t(s_t,a_t)\\ Q^A_{t+1}(s_t,a_t)=Q^A_t(s_t,a_t)+\alpha_t(s_t,a_t)(r+\gamma Q^B(s_{t+1},a^*)-Q^A_t(s_t,a_t)) \\两式相减：\Delta_{t+1}^{BA}(s_t,a_t)=\Delta_t^{BA}(s_t,a_t)-\alpha_t(s_t,a_t)F_t^A(s_t,a_t) \\其中F_t^A(s_t,a_t)=r+\gamma Q^B(s_{t+1},a^*)-Q^A_t(s_t,a_t) Qt+1B(st,at)=QtB(st,at)Qt+1A(st,at)=QtA(st,at)+αt(st,at)(r+γQB(st+1,a∗)−QtA(st,at))两式相减：Δt+1BA(st,at)=ΔtBA(st,at)−αt(st,at)FtA(st,at)其中FtA(st,at)=r+γQB(st+1,a∗)−QtA(st,at)
同理，当更新 Q B Q^B QB时：
Δ t + 1 B A ( s t , a t ) = Δ t B A ( s t , a t ) + α t ( s t , a t ) F t B ( s t , a t ) 其中 F t B ( s t . a t ) = r + γ Q A ( s t + 1 , a ∗ ) − Q t B ( s t , a t ) \Delta_{t+1}^{BA}(s_t,a_t)=\Delta_t^{BA}(s_t,a_t)+\alpha_t(s_t,a_t)F_t^B(s_t,a_t) \\其中F_t^B(s_t.a_t)=r+\gamma Q^A(s_{t+1},a^*)-Q^B_t(s_t,a_t) Δt+1BA(st,at)=ΔtBA(st,at)+αt(st,at)FtB(st,at)其中FtB(st.at)=r+γQA(st+1,a∗)−QtB(st,at)
两个 Δ 相加除以 2 \Delta相加除以2 Δ相加除以2，并定义 ζ t B A = 1 2 α t \zeta_t^{BA}=\frac{1}{2}\alpha_t ζtBA=21αt
则 Δ t + 1 B A ( s t , a t ) = ( 1 − ζ t ) Δ t B A ( s t , a t ) + ζ t F t B A ( s t , a t ) 其中 F t B A ( s t , a t ) = γ ( Q t A ( s t + 1 , b ∗ ) − Q t B ( s t + 1 , a ∗ ) ) 则\Delta_{t+1}^{BA}(s_t,a_t)=(1-\zeta_t)\Delta_t^{BA}(s_t,a_t)+\zeta_tF_t^{BA}(s_t,a_t) \\其中F_t^{BA}(s_t,a_t)=\gamma(Q^A_t(s_{t+1},b^*)-Q^B_t(s_{t+1},a^*)) 则Δt+1BA(st,at)=(1−ζt)ΔtBA(st,at)+ζtFtBA(st,at)其中FtBA(st,at)=γ(QtA(st+1,b∗)−QtB(st+1,a∗)) 这个式子正好满足Lemma2，因此我们的目标就是让 Δ t B A → 0 \Delta_t^{BA}\to0 ΔtBA→0。
定义： E { F t B A ( s t , a t ) ∣ P t } = γ E { Q t A ( s t + 1 , a ∗ ) − Q t B ( s t + 1 , a ∗ ) ∣ P t } \mathbb{E}\{F_t^{BA}(s_t,a_t)|\mathbf{P}_t\}=\gamma E\{Q^A_t(s_{t+1},a^*)-Q^B_t(s_{t+1},a^*)|\mathbf{P}_t\} E{FtBA(st,at)∣Pt}=γE{QtA(st+1,a∗)−QtB(st+1,a∗)∣Pt}

因此： ∥ E { F t B A ∣ P t } ∥ ≤ γ ∥ Δ t B A ∥ \lVert\mathbb{E}\{F_t^{BA}|\mathbf{P}_t\}\rVert \leq \gamma\lVert\Delta_t^{BA}\rVert ∥E{FtBA∣Pt}∥≤γ∥ΔtBA∥也必定成立。根据Lemma2的条件(1)(2)(3)(4)可以证得： Δ t B A → 0 \Delta_t^{BA}\to0 ΔtBA→0（这里可将 c t c_t ct看作0）
第③步：证明 c t → 0 c_t\to 0 ct→0
由第②步的 Δ t B A → 0 \Delta_t^{BA}\to0 ΔtBA→0，可以得出 c t c_t ct最终会收敛至0
第④步：结合第①步，证明Lemma2的条件(3)成立
第①步的证明可以推出 E { F t Q ∣ P t } ≤ γ ∥ Δ t ∥ \mathbb{E}\{F_t^Q|\mathbf{P_t}\}\leq\gamma \lVert\Delta_t\rVert E{FtQ∣Pt}≤γ∥Δt∥成立，因为此时的 F t Q F_t^Q FtQ的设置正是Q-learning单估计的设置。
接下来做个简单的处理： E { F t Q ∣ P t } + E { c t ∣ P t } ≤ γ ∥ Δ t ∥ + E { c t ∣ P t } ⇒ E { F t Q + c t ∣ P t } ≤ γ ∥ Δ t ∥ + E { c t ∣ P t } ⟹ 令 E { c t ∣ P t } = c t ∥ E { F t ( s t , a t ) ∣ P t } ∥ ≤ γ ∥ Δ t ∥ + c t \mathbb{E}\{F_t^Q|\mathbf{P}_t\}+\mathbb{E}\{c_t|\mathbf{P}_t\}\leq\gamma\lVert\Delta_t\rVert+\mathbb{E}\{c_t|\mathbf{P}_t\} \\ \Rightarrow \mathbb{E}\{F_t^Q+c_t|\mathbf{P}_t\}\leq\gamma\lVert\Delta_t\rVert+\mathbb{E}\{c_t|\mathbf{P}_t\} \\\overset{令\mathbb{E}\{c_t|\mathbf{P}_t\}=c_t}{\Longrightarrow}\lVert\mathbb{E}\{F_t(s_t,a_t)|\mathbf{P}_t\}\rVert\leq\gamma\lVert\Delta_t\rVert+c_t E{FtQ∣Pt}+E{ct∣Pt}≤γ∥Δt∥+E{ct∣Pt}⇒E{FtQ+ct∣Pt}≤γ∥Δt∥+E{ct∣Pt}⟹令E{ct∣Pt}=ct∥E{Ft(st,at)∣Pt}∥≤γ∥Δt∥+ct即最难的Lemma2的条件(3)得证明。
第⑤步：证明 Δ t → 0 \Delta_t\to 0 Δt→0
首先要给出Lemma2的关于 Δ \Delta Δ的式子：

（ F t ( s t , a t ) F_t(s_t,a_t) Ft(st,at)上面第①步已经给出。）
显然现在Lemma2的条件(1)(2)(3)(4)均符合，故可以推出：
Δ t → 0 i . g . Q t A → Q ∗ \Delta_t\to 0 \\i.g.Q_t^A\to Q^* Δt→0i.g.QtA→Q∗
第⑥步：证明 Q A , Q B → Q ∗ Q^A,Q^B\to Q^* QA,QB→Q∗
在第②步中 Δ t B A → 0 \Delta_t^{BA}\to0 ΔtBA→0，因此 Q t A , Q t B → Q ∗ Q_t^A,Q^B_t\to Q^* QtA,QtB→Q∗即Double Q-earning能收敛至最优值函数 Q ∗ Q^* Q∗（不写具体的状态动作对就默认是对所有的 S × A S\times A S×A）。

4 Experiments

作者通过2个实验来说明2个事情：

Q-learning存在过估计现象。
Q-learning和Double Q-learning的比较。

γ \gamma γ=0.95， α t ( s , a ) = 1 / n t ( s , a ) \alpha_t(s,a)=1/n_t(s,a) αt(s,a)=1/nt(s,a)以及 α t = 1 / n t ( s , a ) 0.8 \alpha_t=1/n_t(s,a)^{0.8} αt=1/nt(s,a)0.8（后者这种polynomial学习率设置在Lr for Q-learning中表现的更好。 n t ( s , a ) n_t(s,a) nt(s,a)是值函数更新的次数）
对于Double Q-learning， n t ( s , a ) n_t(s,a) nt(s,a)是分 n t A ( s , a ) n^A_t(s,a) ntA(s,a)和 n t B ( s , a ) n_t^B(s,a) ntB(s,a)的。

4.1 Roulette

这游戏涉及到轮盘赌桌游戏背景，就不介绍这个实验了。
略

4.2 Grid World

格子世界应该是离散状态、离散动作最常见的Env了。实验的设置是这样的：
模样如下图右下角所示，4个动作，9个状态，实时奖励r是+10或-12各自50%概率（故每步平均奖励-1），终点目标为+5。最优策略是4步，平均奖励为0.5。 ϵ = 1 / n ( s ) \epsilon=1/\sqrt{n(s)} ϵ=1/n(s) ，其中 n ( s ) n(s) n(s)为探索过的状态数。
行为策略采用 ϵ − g r e e d y \epsilon-greedy ϵ−greedy策略的好处：

一来是Q-learning和Double Q-learning在收敛上的需要。
二来这种策略有利于Q-learning减少他的过估计问题。比如我们有四个Q值： Q ( s 1 , a 1 ) , Q ( s 1 , a 2 ) , Q ( s 1 , a 3 ) , Q ( s 1 , a 4 ) Q(s_1,a_1),Q(s_1,a_2),Q(s_1,a_3),Q(s_1,a_4) Q(s1,a1),Q(s1,a2),Q(s1,a3),Q(s1,a4)我们都知道Q-learning算法是基于单估计器的，因此更新会使得Q值逐步走向过估计。而根据式(5),过估计的正向bias可能会很大，因此比如说 Q ( s 1 , a 1 ) Q(s_1,a_1) Q(s1,a1)过估计了，那么 ϵ − g r e e d y \epsilon-greedy ϵ−greedy中的贪心策略会使得这个动作 a 1 a_1 a1经常被选中，然后进行更新。这样做的好处就是其余的 a 2 , a 3 , a 4 a_2,a_3,a_4 a2,a3,a4被选中进行更新次数就少了，可以说走向过估计的程度变轻了，一定程度上减小了过估计。

实验结果如上图左边的四张图所示，横坐标是epsiode的个数，纵坐标分别是每个epsiode的平均步长奖励以及初始状态 S \mathbf{S} S对应的最大动作值函数 Q ( S , a ) Q(\mathbf{S},a) Q(S,a)。实验总体被分成2个学习率设置下的训练过程，分别是衰减式和polynomial式。
分析：

从第二行的2张图来看，Q-learning存在过估计现象，Double Q-learning存在欠估计现象。其中横着的虚线是最优策略下的行径路线，也就是这个状态下的Q真值，为 5 γ 4 − ∑ k = 0 2 γ k ≈ 0.9 5\gamma^4-\sum_{k=0}^2 \gamma^k\approx0.9 5γ4−∑k=02γk≈0.9。
随着episode增大，即训练加深，2种算法都逐渐开始收敛，总体而言，2种算法相差不大。但是基于第一行的2张图，显然Double Q-learning的平均步长奖励更接近最优平均奖励0.5，表现比Q-learning好很多，也可以理解为Double Q-learning可以获得更多的奖励，打游戏能力更强。
对比两列，可以看出polynomial式的学习率设置可以在2种算法上都有促进作用。

5 Discussion

略

6 Conclusion

总结：

分析了Q-learning算法的overestimation。
引出了Double Q-learning去解决过估计问题，但是这个算法本身会造成underestimation。

展望：
Q-learning展现了过估计，Double Q-learning展现了欠估计。那么就有可能引出一种无偏差的off-policy算法，或者一种低方差的无偏蒙特卡洛on-policy算法。

本文标签：笔记论文 Learning Double

版权声明：本文标题：论文笔记之Double Q-learning 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729813928a1213672.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

论文笔记之Double Q-learning

Double Q-learning

1 Introduction

2 Estimating the Maximum Expected Value

2.1 The single Estimator

2.2 The Double Estimator

3 Double Q-learning

3.1 Convergence in the Limit

4 Experiments

4.1 Roulette

4.2 Grid World

5 Discussion

6 Conclusion

更多相关文章

【论文笔记】An Improved Deep Learning Approach for Retrieving Outfalls Into Rivers From UAS Imagery

Windows 7 系统封装文字版 精简教程笔记！

Deep Recurrent Q-Learning for Partially Observable MDPs（DRQN）

计算机组装与维护 参考文献,浅谈计算机的日常维护论文

学计算机买笔记本是i5 i7,i7一定比i5强？买电脑陷阱你一定要注意了

学计算机买笔记本是i5 i7,买电脑时怎么选处理器呢？i7就一定强过i5吗？

ICRA2022 SLAM相关论文整理

一天学会Facebook广告投放（1万字长文）丨出海笔记

2024年最新网络安全笔记整理，网络安全高级工程师面试题及答案

计算机继续教育笔记,计算机系统集成项目经理继续教育A组课程笔记.docx

怎么一键重装笔记本系统(笔记本电脑一键装系统教程)

笔记：手机网页调用qq，uc浏览器调用qq可以用

win10安装TensorFlow填坑笔记

有限元框架 FEniCS 安装笔记（ubuntu16.04、centos7、win10）

论文阅读--Conservative Q-Learning for Offline Reinforcement Learning

论文理解:“Conservative physics-informed neural networks on discrete domainsfor conservation laws: Appl“

Double Q-learning

Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping论文总结

AAAI 2022 论文列表

2024 推荐系统论文汇总

发表评论

推荐文章

如何在最近任务列表中隐藏app

破解软件 难逃宿命

记录win10安装多个版本cuda与cudnn+切换使用+发现的一些有趣现象

超详细教程YoloV9免费数据集网站Roboflow一键导出Voc、COCO、Yolo、Csv等格式

为什么华为a1路由器网速变慢_华为a1路由器wifi经常掉线怎么办

热门文章

i5 10500h 和i7 9750h 哪个好

基于Auto.js的淘宝抢购助手+京东双十一活动助手。亲测运行正常！

服务器正常运行温度范围 &amp; ubuntu查看cpu温度 &amp; cpu温度过高

C# 很少人知道的科技

mac上如何找到爱奇艺下载的文件

更换固态硬盘（不重装系统）（2）

VS Code C语言开发环境配置附图版保姆教程

CGMSVG图形文件格式转换 免费

Guardian of Decency·匹配问题·二分图问题

电信光纤天翼网关将默认的路由模式修改为桥接模式

最新文章

优启通桌面只有一个计算机,优启通图文详细使用教程,优启通使用教程

联想ThinkPad笔记本怎么开启vt_ThinkPad笔记本开启vt虚拟化教程

msvcp100.dll丢失怎样修复-一键解决msvcp100.dll丢失问题

Win11更新补丁导致应用程序崩溃错误代码0xc0000135怎么解决？

修电脑大全，学会不求人

如何重装win7旗舰版系统(怎么重装win7旗舰版系统)

华硕主板怎么开启vt_华硕主板开启vt虚拟化教程(intel和amd开启方法)

技嘉主板怎么开启TPM_技嘉主板开启TPM2.0教程

电脑出现蓝屏提示错误代码0xc000000f，0xc000000f进不了系统怎么修复

解析ocr.dll错误原因及其影响：全面解决方法

【电脑知识】自学维修电脑

安全管理信息系统的特点有360终端安全管理系统（一体化版）_新手漏洞技巧

libcef.dll缺失警报：解锁程序运行障碍的多元策略与实战解决之道

找不到d3dx9_43.dll,无法继续执行代码怎么解决

找不到msvcp140.dll，无法继续执行代码的5种解决方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

Windows 7 系统封装文字版精简教程笔记！

计算机组装与维护参考文献,浅谈计算机的日常维护论文

破解软件难逃宿命

服务器正常运行温度范围 & ubuntu查看cpu温度 & cpu温度过高

CGMSVG图形文件格式转换免费

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载