Loading...

AssistGPT:可规划、执行、检查和学习的通用多模态助理

大模型11个月前发布 智源社区
349 0 0

AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan Fan, Mike Zheng Shou
[National University of Singapore & Microsoft Research Asia]

AssistGPT:可规划、执行、检查和学习的通用多模态助理

要点:

  • 动机:解决复杂的视觉任务在多模态场景下的挑战,包括难以准确分解查询、灵活的输入和中间结果。

  • 方法:提出一个多模态AI助手系统AssistGPT,采用Plan、Execute、Inspect和Learn(PEIL)的交叉代码和语言推理方法,结合LLM和各种工具。

  • 优势:AssistGPT能够处理复杂的视觉相关任务,具有灵活的推理方式和多模态能力,在A-OKVQA和NExT-QA基准测试中取得了最先进的结果。

介绍了一个名为AssistGPT的多模态AI助手系统,通过交叉代码和语言推理方法解决了复杂视觉任务的挑战,并在基准测试和实际应用中展示了其有效性。

https://arxiv.org/abs/2306.08640 

AssistGPT:可规划、执行、检查和学习的通用多模态助理
AssistGPT:可规划、执行、检查和学习的通用多模态助理

© 版权声明

相关文章

暂无评论

暂无评论...