首页
系统
动态
电子资讯
硬件
数码
软件介绍
网络软件
系统工具
应用软件
图形图像
多媒体
编程开发
字体下载
登录
标签
MDP
强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
前言 22年底23年初ChatGPT大火,在写《ChatGPT技术原理解析》的过程中 发现ChatGPT背后技术涉及到了RLRLHF,于是又深入研究RL,研究RL的过
梯度
通俗
入门
策略
MDP
admin
5小时前
8
0