【NIPS 2018】循环World模型促进策略演变|电子爱好者

admin管理员组
文章数量:1543699

文章目录

- 所解决的问题？
- 背景
- 所采用的方法？
- 取得的效果？
- 所出版信息？作者信息？
- 其它参考链接

论文题目：Recurrent World Models Facilitate Policy Evolution

所解决的问题？

从world model中学一个policy，并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片，不同的人能够得到不同的抽象理解，而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们，遇到问题或者是危险的时候，快速做出反应。

所采用的方法？

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果，但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy，并将其迁移到真实环境中。

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数 p ( z ) p(z) p(z) (混合高斯模型做的)。RNN建模表示为 P ( z t + 1 ∣ a t , z t , h t ) P(z_{t+1}|a_{t},z_{t},h_{t}) P(zt+1∣at,zt,ht)，具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

总的来说就是基于观测的隐变量，对上一帧隐变量的预测，以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的)，然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息，只给交互数据就可以。

这么做的原因就是先对环境信息做了一个特征抽取，然后基于这个抽取的特征再用于训练得到policy，好处在于做了特征提取之后，观测的有效信息比较多，特征比较明显，那当然再做policy的学习会更快。

取得的效果？

基于手工提取特征的智能体得分是V model 632分上下浮动。

所出版信息？作者信息？

David Ha谷歌大脑成员，主要研究机器智能。

其它参考链接

官方网页介绍：https://worldmodels.github.io/

我的微信公众号名称：小小何先生
公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

本文标签：模型策略 NIPS World

版权声明：本文标题：【NIPS 2018】循环World模型促进策略演变内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1725271804a1015889.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【NIPS 2018】循环World模型促进策略演变

文章目录

所解决的问题？

背景

所采用的方法？

取得的效果？

所出版信息？作者信息？

其它参考链接

更多相关文章

大模型思维链论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》简要介绍

论文翻译 | Chain-of-Thought Prompting Elicits Reasoningin Large Language Models 思维链提示在大型语言模型中引出推理

大模型思维链（Chain-of-Thought）技术原理

大模型prompt技巧——思维链（Chain-of-Thought）

基于大模型思维链（Chain-of-Thought）技术的定制化思维链提示和定向刺激提示的心理咨询场景定向ai智能应用

原创：旗舰游戏显卡(980Ti,1080Ti,TiTan V,2080Ti,3090,4090)，AI画图stable diffusion)和大模型(chatglm2-6b)推理性能横评

《强化学习周刊》第64期：Neurips2022强化学习论文推荐（2）、英伟达提出树搜索策略梯度...

人工智能机器学习模型构建数据集HIGGS Data Set数据集百度网盘下载地址

win7系统C盘占用空间过大，删除策略

OSGB格式打开 OSGB格式转换 模型通用快捷键 模型处理软件格式 OSGB模型基础知识

几款三维模型OSGb转换3dtile格式的软件

【博弈论】策略分析

Python调用讯飞星火大模型v3.5接口

大模型私有化部署：手把手教你部署并使用清华智谱GLM大模型

【LLM大模型】Llama 3 8B模型微调实战

《LLM零基础入门篇》（二）：大模型基础知识

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

LangChain-Chatchat大语言模型本地知识库：踩坑、部署与应用全攻略

都“白菜价”了，大模型靠啥变现？

999策略手机论坛_999策略手机论坛

发表评论

推荐文章

iqooneo3 如何不用vivo账号下载外部应用_你说iQOO Neo 3很香？抱歉，我有不同的意见...

VR简介与应用方向

w7电脑蓝屏怎么解决_win7电脑蓝屏怎么解决

Linux虚拟机蓝屏问题解决方案

小米6线刷+开发版+root

热门文章

战斗系统

《那些年啊，那些事——一个程序员的奋斗史》九

疯狂的程序员 1-10

windows10 家庭版U盘安装教程

Mac下开启命令行root权限

CygWin获取 root 权限的方法

百度一键root android,百度一键root下载

安卓一键ROOT权限获取软件排行榜

[BUGKU][CTF][MISC][2020] MISC writeup持续更新中

linux u盘 命令,制作U盘版linux系统安装盘(DD命令)

最新文章

Adobe认证指南｜在 Adobe Photoshop 中替换产品背景

【总结】关于photoshop，premiere等Adobe系列软件打开时报错msvcp120.dll丢失的解决方案

photoshop msvcp120.dll 丢失

PhotoShop cc 2017安装 zeplin插件

Adobe Photoshop Camera Adobe这相机App有何黑科技

安装Photoshop 2022时出现操作系统不满足此安装程序的最低系统要求

GIMP(Linux下的Photoshop)-KOS安装教程_linux photoshop

学习日记-Photoshop 2015 cc官网下载

photoshop CS6 DDS插件

Photoshop设计网站展示

如何在 Adob​e Photoshop 中制作拉伸的风景？

PhotoShop 2021 mac版 如何一键替换天空

Photoshop网页切片

centos下的photoshop的替代软件gimp过程，软件依赖坑多

【Photoshop_CC_2018】msvcr120.dll丢失及应用程序无法正常启动0xc000007b修复dll问题解决

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

OSGB格式打开 OSGB格式转换模型通用快捷键模型处理软件格式 OSGB模型基础知识

linux u盘命令,制作U盘版linux系统安装盘(DD命令)

如何在 Adobe Photoshop 中制作拉伸的风景？

PhotoShop 2021 mac版如何一键替换天空

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载