麦吉尔大学| ICML 2022: 顺序决策的效用理论

强化学习2年前 (2023)发布智源社区

596 0 0

【标题】Utility Theory for Sequential Decision Making

【作者团队】Ahmed Alagha, Shakti Singh, Rabeb Mizouni

【发表日期】2022.6.27

【论文链接】https://arxiv.org/pdf/2206.13637.pdf

【推荐理由】冯诺依曼-摩根斯坦 (VNM) 效用定理表明，在某些合理性公理下，决策被简化为最大化某些效用函数的期望。本文将这些公理扩展到越来越结构化的顺序决策设置，并确定相应效用函数的结构。特别是，作者表明，无记忆偏好会以每次转换奖励和未来回报的乘法因子的形式产生效用。这个结果激发了马尔可夫决策过程（MDPs）的泛化，在智能体的回报上具有这种结构，作者称之为仿射奖励MDPs。为了恢复 MDP 中常用的标量奖励累积总和，需要对偏好进行更强的约束。更强的约束简化了目标寻求智能体的效用函数，其形式为状态的某些函数的差，作者称之为势函数。本文的充要条件通过在 VNM 理性公理中添加一个公理，揭开了强化学习中理性智能体设计基础的奖励假设的神秘面纱，并激发了涉及顺序决策的 AI 研究的新方向。