清华大学|稀疏奖励目标条件强化学习的阶段性自我模仿减少

强化学习3年前 (2023)发布智源社区

735 0 0

【标题】Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning

【作者团队】Yunfei Li, Tian Gao, Jiaqi Yang

【发表日期】2022.6.24

【论文链接】https://arxiv.org/pdf/2206.12030.pdf

【推荐理由】将监督学习 (SL) 的能力用于更有效的强化学习 (RL) 方法是最近的趋势。本文提出了一种新颖的阶段性方法，通过交替在线监督学习和离线强化学习来解决稀疏奖励目标条件问题。在在线阶段，执行 RL 训练并收集推出数据，而在离线阶段，对数据集中的那些成功轨迹执行监督学习。为了进一步提高样本效率，作者在在线阶段采用了额外的技术，包括减少任务以生成更可行的轨迹和基于价值差异的内在奖励来缓解稀疏奖励问题。这种整体算法被称为 PhAsic 自我模仿减少 (PAIR)。在稀疏奖励目标条件机器人控制问题（包括具有挑战性的堆叠任务）上，PAIR 大大优于非阶段性强化学习和阶段性监督学习基线。 PAIR 是第一个从零开始学习堆叠 6 个立方体且只有 0/1 成功奖励的强化学习方法。