Loading...

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

智源社区1年前 (2023)发布 智源社区
413 0 0

MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang
[UCLA & USC]

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

  • 动机:研究如何在视觉-语言领域实现上下文学习,将单模态的元学习知识转移到多模态中,以提高大规模预训练视觉-语言(VL)模型的能力。
  • 方法:首先在自然语言处理(NLP)任务上元训练一个语言模型,实现上下文学习,然后通过连接一个视觉编码器将该模型转移到视觉-语言任务上,以实现跨模态的上下文学习能力的转移。
  • 优势:实验证明,跨模态的上下文学习能力可以转移,该模型显著提高了视觉-语言任务上的上下文学习能力,并且在模型大小方面能够有显著的优化,例如在VQA、OK-VQA和GQA上,所提出方法在参数数量减少约20倍的情况下超过了基准模型。

探索了将元学习的上下文学习能力从单模态迁移到多模态的可能性,证明了在视觉-语言任务中通过迁移可以显著提升上下文学习能力,甚至在模型大小方面实现优化。

https://arxiv.org/abs/2306.01311 

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

© 版权声明

相关文章

暂无评论

暂无评论...