CLARE

Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning
ICLR 2023 paper code Intro 离线逆强化学习由于协变量偏移 textbf{协变量偏移} 协变量偏移问题容易导致所学的奖励函数外推误差 textbf{奖励函数外推误差} 奖励函数外推误差。这种误差可能使得学
ConservativeModelofflineCLAREBased
admin6小时前
80