Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读|电子爱好者

admin管理员组
文章数量:1530041

Abstract

在强化学习领域，结合外部的知识是个很重要的问题。基于势能的reward shaping为agent提供了指定形式的additional reward，这种做法是能保证最优策略不变的。这篇文章的主要工作是提出一种新的方法，能够将任意的reward function转换成动态的势能函数，当成是一种辅助的value function训练。

Introduction

由于强化学习具有奖励稀疏性，agent可能很长时间都没办法得到奖励，所以可以在reward中加入额外的奖励信息引导agent的前进，加快探索。由于改变了reward，additive reward function可能会导致策略的改变，所以需要保证增加了reward后最优策略的不变。早期的additive reward function很难保证策略不变性，比如学习骑单车到某个目标，如果设定车轮向前会得到奖励，那么会一致骑车而不会到达目的地。而potential-based reward shaping可以解决这个问题，设定了对不同状态有不同的势能函数，打破了循环。但是potential function需要额外的知识，并且限制additional reward的形式。
这篇文章提出了一种新的方法，直接通过任意的奖励函数指定shaping reward，并且能保证policy invarience。主要是完成了两件事，第一件事扩展Wiewiora’s advice framework，提出dynamic advice potentials。其次根据reward function学习一个新的secondary value function，根据这个新的value function评估dynamic advice potentials。提出这个框架的主要动机还是potential-based方法需要的条件太苛刻了，需要提供先验知识，对形式也有一定的限制，本文基于这些缺陷提出了dynamic advice potentials，解决这些问题。

Reward Shaping

Reward shaping可以写成如下形式： R ′ = R + F R' = R + F R′=R+F。新增的F称为shaping reward。
99年吴恩达定义是potential function：

Wiewiora在03年扩展成advice potential functions，增加了动作

Devlin and Kudenko在12年提出动态的potential

引入了一些时间参数，这样potential function就可以用于训练。

From Reward Functions to Dynamic Potentials

吴恩达提出的potential based reward shaping有两个缺点，efficacy and specification。前者与设计potential function相关，后者则是针对特定的领域知识，将一些领域的知识转换为potential的形式。这项工作主要是针对后者。

给定任意的reward function R，如果能够构建一个新的potential function F，使得R == F，那么policy invariance就保证了。问题就等价于寻找一个potential function，使得R≈F。

将potential function扩展成动态的形式，用类似TD的方法去更新，将potential function看成是一个类似于Q值的东西，也就是上面提到的secondary value function。

Experience

Grid-World

到达特定位置就算赢。到达终点positive reward，否则就是0。定义一个arbitrary reward function

现在需要通过从这个arbitrary函数中学一个potential出来，更具上面的方法。

Cart-Pole

这是一个连续状态，也就是说会有状态不可数，也是能够处理的。

Conclusion

这篇文章主要解决的问题是PBRS的两个问题，一个是选择potential function的问题，一个是特定领域的知识转换成potential form的问题。其次还解决了positive cycle的问题，上面的两个实验的arbitrary reward function都会导致循环，但是加入potential就没有了。自己训练了一个potential function，但其实还是需要自己去定义一个arbitrary reward function出来的。另外这种方法只是适用于value-based的方法，不适合policy based。

本文标签：论文 Reward Arbitrary Expressing Functions

版权声明：本文标题：Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1725279030a1016262.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读

Abstract

Introduction

Reward Shaping

From Reward Functions to Dynamic Potentials

Experience

Grid-World

Cart-Pole

Conclusion

更多相关文章

Deep Convolutional Neural Networks for Image Classification: A Comprehensive Review(论文解读)

北斗导航 | 基于CRDSS（Comprehensive RDSS, 全面RDSS）的北斗抗干扰技术研究：RDSS+RNSS（论文翻译）

SER 语音情感识别-论文笔记1

多模态融合论文阅读笔记

CVPR2022目标检测方向论文

图像融合综述论文整理

Re38：读论文 NeurJudge: A Circumstance-aware Neural Framework for Legal Judgment Prediction

ChatGPT撰写论文的好帮手

【论文笔记】To Learn or Not to Learn: Visual Localization from Essential Matrices（ICRA 2020）

常用计算机工具软件论文,计算机常用软件论文 陈杰.doc

论文阅读：Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

酒店管理系统的设计与实现参考（论文+源码）

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

APMCM（亚太地区数模竞赛）2014年-A题：Routine Scheme for UAVs Surveillance（附获奖论文）

Re 39：读论文 CTM Augmenting Legal Judgment Prediction with Contrastive Case Relations

论文阅读英语笔记

New functions of a library management system

论文阅读——Reduce Information Loss in Transformers for Pluralistic Image Inpainting-CVPR 2022

超详细的免费下载论文方法

脑肿瘤分割论文打卡2：E1D3 U-Net for Brain Tumor Segmentation

发表评论

推荐文章

【ChatGPT+MindShow高效生成PPT，保姆级安装教程】

一建部署自己的AI集合平台，无缝切换ChatGPT、Claude、Google Gemini、Mistral、LLaMA2等主流AI大模型

chrome浏览器跨域设置详细教程

amd cpu 服务器cpu型号,AMD家的CPU该如何选购？看完这篇你就懂了——《推荐篇》...

2024免费mathtype7.4.4安装注册步骤教程

热门文章

An error occurred on the server when processing the URL. Please contact the system administrator.报错

html需要电脑什么配置,买电脑主要看什么配置和参数

千兆路由器和百兆路由器

1. NASA International Space Apps Competition2. 执行 Need-Blind 政策的美国大学1. 帝国理工学院25fall申请变化2.

15个借助AI,ChatGPT自动写代码工具

Chrome浏览器查看Cookie

解决VM报错：不支持虚拟化的 amd-vrvi

关于amd型号电脑android-studio和VMware不兼容的那些事

AMD HDMI Output未插入 解决方案

VirtualBox虚拟机CentOS打不开，无法开机，代码E_FALL

最新文章

Windows server 2008学习资料

idea永久使用

2021年山东省职业院校技能大赛 高职组 “信息安全管理与评估”赛项样题

JetBrains IntelliJ IDEA 优化教程

Parallels对Mac的损害大吗 pd虚拟机怎么设置内存和CPU 运行Parallels发热

什么是3A游戏 Mac能玩的3A游戏大作推荐 苹果笔记本电脑玩3A游戏 黑神话悟空是3a游戏吗

2021年山东省职业院校技能大赛高职组“信息安全管理与评估”样题

IDEA简介及使用

2023.5.15老男孩网络安全集训营第一节

c#物联网_C# 开发工具比较

前后端分离项目

Diffblue Cover AI Java：Difflane如何利用Diffblue Cover AI实现Java自动化的单元测试（Diffblue Cover快速入门）

IntelliJ IDEA 2018安装与破解

2021最新IDEA初级入门详细教程流出，开发组小伙伴怒赞

1-1 IDEA的下载安装

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

常用计算机工具软件论文,计算机常用软件论文陈杰.doc

AMD HDMI Output未插入解决方案

2021年山东省职业院校技能大赛高职组 “信息安全管理与评估”赛项样题

什么是3A游戏 Mac能玩的3A游戏大作推荐苹果笔记本电脑玩3A游戏黑神话悟空是3a游戏吗

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载