《Quantization for Sustainable Reinforcement Learning》|电子爱好者

admin管理员组
文章数量:1536128

强化学习作为一种无监督学习，没有标签使得学习收敛的速度非常低，所以强化学习的加速训练得到了广泛的关注。

什么是强化学习？简单来说，就是我们对相应的状态设置不同的奖励值，agent也就是可以看作一个玩家，这个玩家到不同的状态后，会获得不同的奖励值，最终的目的就是获得最高的奖励。与深度学习结合后，强化学习以DQN为例子的大致流程可以简述为：

①初始化Q和Q_target值网络权重，Q值网络是指输入当前agent在环境中状态，输出为在这个状态下采取不同策略的奖励，Q_Target之后再解释。

②将初始化状态输入网络，得到不同策略的奖励值，我们可以选择直接采取奖励值最高的策略作为我们下一步行动的策略，但是一般情况下为了防止网络局部最优与加速网络训练，我们会再结果的选择上加上一些扰动，提供一些噪声。

③agent在环境中执行得到的策略，与环境交互，得到下一个状态以及我们人为设置的及时奖励，将原本的状态，及时奖励，采取的策略以及下一个状态，放入经验池中，经验池也就相当于我们有监督学习的数据。

④奖励值可以分为即时奖励以及未来奖励，所以Q_Target就起作用了，将原本的状态输入网络，得到Q=及时奖励以及未来奖励，这时将下一状态输入到Q_Target得到下一状态的奖励，这个奖励就是上一状态的未来奖励，故以此来计算损失，梯度更新网络。Q_Target其实就是每隔一定的时间将Q的权重复制到Q_Target网络中，主要是为了降低数据之间的相关性(这里有点绕，懒得写公式了，大家不理解的地方可以自行查阅相关公式)

接下来就是本论文的核心思想。想要提高强化学习的学习速率，得先分析出强化学习训练的速率低的原理，主要在于以下几个方面

· 参与者(Actor)策略推理

· 学习者(learner)的梯度计算

· 模型更新

· 参与者和学习者之间的沟通成本（分布式强化学习）

本论文指出，为了获得显著的加速效果，本文认为需要降低执行参与者推理的开销。为了实现这一目标，采用了神经网络量化。如图

也就是将上文提到的第二个状态的，前向推理的网络采用量化，来大大加速前向推理的速度。我们都知道量化网络一定会产生一定的误差，而这个误差其实就是我们需要的，也就是之前说的扰动和噪声的作用，但是，这里又不能使得量化后的网络精度降低太多，从而失去了本身的意义。故作者做了一些实验。

作者采用了最朴实无华的PTQ，QAT量化方法，对于一些游戏进行了实验，可以看到8bit量化后就会产生很大的误差，故不可取。

同时，作者还对比了Communication vs Computation，更新actor前向推理的网络权重的频率越频繁，就意味着通信的代价越大，而因为更新的越快，经验池的数据就越新，故网络就收敛的快。故作者又做了以下实验

得出，8bit最好。故本文提出了一个采用量化对于强化学习的加速策略。

如有错误，欢迎各位批评指正！！

本文标签： Sustainable Quantization Learning Reinforcement

版权声明：本文标题：《Quantization for Sustainable Reinforcement Learning》内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726926260a1090573.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

《Quantization for Sustainable Reinforcement Learning》

更多相关文章

lstm论文：A deep learning approach to predict significant wave height using lstm 总结（1.17）

Coursera Machine Learning 第十一周 quiz Application: Photo OCR

深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

智能突触《Continual Learning Through Synaptic Intelligence》(SI)

learning Efficient Convolutional Networks through Network Slimming

深度学习论文: Data-Free Quantization Through Weight Equalization and Bias Correction及其PyTorch实现

Machine Learning A Probabilistic Perspective第二章学习笔记

Differentially Private Federated Learning: A Client Level Perspective

Continual Learning of Large Language Models: A Comprehensive Survey

【论文阅读ICIMIA 2020】A Comprehensive Study on Robot Learning from Demonstration

综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(二)

综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(一)

多智能体强化学习经典综述A Comprehensive Survey of Multi-Agent Reinforcement Learning翻译

读书笔记-增量学习-Broad Learning System: An Effective and Efficient Incremental Learning System

《Renewable and Sustainable Energy Reviews》期刊介绍（SCI 1区）

ACS Sustainable Chemistry &amp; Engineering期刊投稿分享

【 IEEE可持续能源汇刊】IEEE Transactions on Sustainable Energy

Will the eaco (EarthChain) become a sustainable universe and an international super sovereign curren

Sustainable Urban Planning and Development

【论文笔记】A Sustainable Incentive Scheme for Federated Learning

发表评论

推荐文章

浅谈windows 8.1--如何从xp或win 7 过渡到win 8.1

自建DNS劫持服务器，纯内网劫持PS5，屏蔽更新，自动hen

《大数据技术原理与应用》林子雨 期末复习重点（总结）

Chrome浏览器F5和ctrl+F5的区别

2024年最新：一文看懂英伟达显卡B100、H200、L40S、A100、A800、H100、H800、V100如何选择，附架构技术和性能对比

热门文章

移动硬盘数据恢复，6个亲测有效方法公开！

appium环境搭建时，win7系统“adb devices”无法识别手机设备问题处理

锐图软件提醒微软副总裁：正与360研究XP免费升级WIN10方案

java -cp详解（ChatGPT生成）

com.thoughtworks.xstream.converters.reflection.ReflectionConverter，用XSTream将xml转换为Java对象

【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

win10安装两种不同版本的JDK，IDEA切换JDK版本教程

计算机里创建本地磁盘分区,韩博士教你怎么用本地模式将电脑磁盘分区

QQ出现“该页面暂时无法显示”解决办法！

Module ““ must not contain source root ““. The root already belongs to module

最新文章

windows如何共享文件，手机在线观看电脑本地视频，传输大文件到手机

win10专业版没有触摸板选项_Windows10触控板的正确使用方法

python GUI工具之PyQt5模块，pyCharm 配置PyQt5可视化窗口

微软激活方式

Visual Studio 2008 破解90天限制的激活升级方法！

手机和WINDOWS电脑蓝牙连接后怎样放歌,无法选择媒体音频 蓝牙媒体音频勾选不上

windows和android结合,Android和Windows 10可以很好地合作的10种方式

android apk安装工具,Windows 10手机Android apk实用工具怎么实现一键安装？

win10修改conda环境和缓存默认路径

PC端剪映6.0免vip版本,功能随便用

Windows10系统安装RancherDesktop1.6.2

android 指纹识别驱动 win10,[教程] 使用你的安卓手机指纹识别来更优雅地远程解锁Windows 10...

在Windows10中编译PaddleLite 2.12（32位系统）

mathtype试用期到后继续使用

MySQL安装和第三方链接器naciat的安装与激活

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

ACS Sustainable Chemistry & Engineering期刊投稿分享

《大数据技术原理与应用》林子雨期末复习重点（总结）

手机和WINDOWS电脑蓝牙连接后怎样放歌,无法选择媒体音频蓝牙媒体音频勾选不上

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载