Loading...

热门

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

智源社区3年前 (2023)发布智源社区

964 0 0

MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang
[UCLA & USC]

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

动机：研究如何在视觉-语言领域实现上下文学习，将单模态的元学习知识转移到多模态中，以提高大规模预训练视觉-语言(VL)模型的能力。
方法：首先在自然语言处理(NLP)任务上元训练一个语言模型，实现上下文学习，然后通过连接一个视觉编码器将该模型转移到视觉-语言任务上，以实现跨模态的上下文学习能力的转移。
优势：实验证明，跨模态的上下文学习能力可以转移，该模型显著提高了视觉-语言任务上的上下文学习能力，并且在模型大小方面能够有显著的优化，例如在VQA、OK-VQA和GQA上，所提出方法在参数数量减少约20倍的情况下超过了基准模型。

探索了将元学习的上下文学习能力从单模态迁移到多模态的可能性，证明了在视觉-语言任务中通过迁移可以显著提升上下文学习能力，甚至在模型大小方面实现优化。

https://arxiv.org/abs/2306.01311

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

# 智源社区 # 视觉 # 大模型 # 视觉 # 论文

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

智源社区

1,252

大模型的商业价值来自AI原生应用体验的质变｜百度@MEET2024

智源社区

639

万字Gemini技术报告来啦 | Gemini这么强，GPT-4输的有点多，多模态超过人类专家

智源社区

839

ACC-UNet | 致敬ConvNeXt，全卷积结构UNet设计，超越SWin-UNet！

智源社区

1,259

多项SOTA！SVDFormer-自增强自结构双生点云补全算法-ICCV2023论文详解

智源社区

821

社区供稿 | LMDrive: 大语言模型加持的闭环端到端自动驾驶框架

智源社区

1,102

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2026 Ai导航鄂ICP备2023001728号