金山大学|世界价值函数：学习和规划的知识表示

强化学习2年前 (2023)发布智源社区

651 0 0

【标题】World Value Functions: Knowledge Representation for Learning and Planning

【作者团队】Geraud Nangue Tasse, Benjamin Rosman, Steven James

【发表日期】2022.6.23

【论文链接】https://arxiv.org/pdf/2206.11940.pdf

【推荐理由】本文提出了世界价值函数（WVFs），这是一种面向目标的通用价值函数，它代表了如何不仅解决给定的任务，而且解决智能体环境中任何其他达到目标的任务。这是通过为智能体配备一个内部目标空间来实现的，该目标空间定义为它经历终端转换的所有世界状态。然后智能体可以修改标准任务奖励来定义自己的奖励函数，这可证明它会驱动它学习如何实现所有可达到的内部目标，以及在当前任务中这样做的价值。本文展示了 WVF 在学习和规划方面的两个主要好处。特别是，给定一个学习的 WVF，智能体可以通过简单地估计任务的奖励函数来计算新任务中的最优策略。此外，本文表明 WVF 还隐式编码环境的转换动态，因此可用于执行规划。实验结果表明，WVFs 可以比常规值函数更快地学习，而它们推断环境动态的能力可以用来整合学习和规划方法，以进一步提高样本效率。