评估大型视觉语言模型中的物体幻觉

大模型3年前 (2023)发布智源社区

1,080 0 0

Evaluating Object Hallucination in Large Vision-Language Models

解决问题：该论文旨在研究大规模视觉语言模型（LVLM）中的对象幻觉问题，以及探讨视觉指令对幻觉的影响。该问题在当前领域中是一个新的问题。

关键思路：该论文通过对几个代表性的LVLM进行评估实验，发现它们大多数存在严重的对象幻觉问题。同时，论文还指出，视觉指令可能会影响幻觉的产生。为了更稳定、更灵活地评估对象幻觉，论文提出了一种基于投票的查询方法POPE。相比当前领域的研究，该论文的主要新意在于针对LVLM中的对象幻觉问题提出了一种新的评估方法。

其他亮点：该论文的实验数据和代码公开可用，值得关注。此外，论文还指出现有的评估方法可能会受到输入指令和LVLM生成风格的影响。该问题值得进一步研究。

评估大型视觉语言模型中的物体幻觉

关于作者：本文的主要作者是Yifan Li、Yifan Du、Kun Zhou、Jinpeng Wang、Wayne Xin Zhao和Ji-Rong Wen

Yifan Li、Yifan Du、Kun Zhou、Jinpeng Wang、Wayne Xin Zhao和Ji-Rong Wen来自中国人民大学高瓴人工智能学院，Jinpeng Wang来自美团。

http://aibox.ruc.edu.cn/index.htm

论文摘要：本文题为《评估大型视觉语言模型中的物体幻觉》，作者为Yifan Li、Yifan Du、Kun Zhou、Jinpeng Wang、Wayne Xin Zhao和Ji-Rong Wen。受大型语言模型（LLM）优越的语言能力的启发，近期出现了大型视觉语言模型（LVLM），通过将强大的LLM集成到其中，以提高复杂多模态任务的性能。尽管LVLM取得了令人满意的进展，但我们发现它们存在幻觉问题，即它们往往会生成与描述中目标图像不一致的物体。为了调查这一问题，本文首次系统地研究了LVLM的物体幻觉问题。我们对几个代表性的LVLM进行了评估实验，并表明它们大多数都存在严重的物体幻觉问题。我们进一步讨论了视觉指令可能会影响幻觉，并发现：在视觉指令中频繁出现或与图像物体共同出现的物体，很明显容易被LVLM产生幻觉。此外，我们发现现有的评估方法可能会受到输入指令和LVLM的生成风格的影响。因此，我们进一步设计了一种改进的物体幻觉评估方法，提出了一种基于投票的查询方法，称为POPE。实验结果表明，我们的POPE可以更稳定、更灵活地评估物体幻觉。我们的代码和数据公开在https://github.com/RUCAIBox/POPE。

论文地址：https://arxiv.org/pdf/2305.10355.pdf

Github地址：https://github.com/RUCAIBox/POPE