通过强化学习出现类似信念的表征

强化学习3年前 (2023)发布智源社区

994 0 0

标题：Emergence of belief-like representations through Reinforcement Learning

链接：https://doi.org/10.1101/2023.04.04.535512

作者：Jay Hennig, Sandra A. Romero Pinto, Takahiro Yamaguchi, Scott W. Linderman, View ORCID ProfileNaoshige Uchida, Samuel J. Gershman

单位：哈佛大学、斯坦福大学、丰田研究院

通过强化学习出现类似信念的表征

摘要：

为了适应性地行动，动物必须学会预测未来的奖励或价值。动物被认为使用强化学习来学习奖励预测。然而，与经典模型相比，真实环境中动物还必须学会仅使用不完整的状态信息来估计价值。以前的工作表明，动物通过首先形成「信念」来估计部分可观察任务的价值——对任务中隐藏状态的最佳贝叶斯估计。虽然这是解决部分可观察性问题的一种方法，但它不是唯一的方法，也不是复杂的现实环境中计算可扩展性最强的解决方案。

在这里，研究者展示了循环神经网络 (RNN) 可以学习直接从观察中估计价值，产生类似于实验观察到的奖励预测错误（reward prediction errors, RPE），而没有任何明确的信念估计目标。研究者整合了关于信念的统计、功能和动力系统观点，以表明 RNN 习得的表征对信念信息进行编码，但前提是 RNN 的容量足够大。这些结果说明了动物如何在不明确估计信念的情况下估计任务的价值，从而产生对容量有限的系统有用的表征。