电子科技大学|强化学习中有效利用的聚类经验回放

强化学习2年前 (2023)发布智源社区

654 0 0

【标题】Clustering Experience Replay for the Effective Exploitation in Reinforcement Learning

【作者团队】Min Li, Tianyi Huang, William Zhu

【发表日期】2022.6.27

【论文链接】https://www.sciencedirect.com/science/article/pii/S0031320322003569

【推荐理由】强化学习通过利用不同决策产生的转换经验来训练智能体做出决策。为了利用这种经验，大多数强化学习方法通过统一采样重放探索过的转换。但是通过这种方式，很容易忽略最后探索的转换。利用这种经验的另一种方法是通过训练中的估计误差来定义每个转换的优先级，然后根据它们的优先级重放转换。但它只更新在当前训练时间步长重播的转换的优先级，因此优先级较低的转换将被忽略。本文提出了一种聚类体验回放，称为 CER，有效地利用隐藏在当前培训中所有探索过的过渡中的经验。CER 通过基于时间划分的分治框架对转换进行聚类和重放。首先，它将整个训练过程分为几个阶段。其次，在每个阶段结束时，它使用k-means对该阶段探索的过渡进行聚类。最后，它构造了一个条件概率密度函数，以确保在当前训练中能够充分地重播各种转换。