微软｜多模态基础模型：从专家到通用助手

大模型3年前 (2023)发布智源社区

896 0 0

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao

[Microsoft]

多模态基础模型：从专家到通用助手

本文对现代多模态基础模型进行了全面综述，涵盖了视觉理解、视觉生成、统一视觉模型、与大型语言模型(LLM)的训练/串联等方面。
它倡导从开发特定用途的多模态模型，向能遵循人类意图完成视觉任务的通用助手的转变。
在视觉理解方面，它回顾了有监督学习、图像文本对比学习(CLIP)、仅图像自监督表示学习，以及它们的组合。
在视觉生成方面，它着眼于通过空间/文本控制、更好地遵循文本提示、概念自定义等方面改进人类意图匹配。
在构建通用助手方面，讨论了不使用LLM的统一视觉模型、使用LLM训练视觉模型、以及将视觉模型串联到LLM。
提供了从专业模型向通用视觉助手发展的多模态基础模型趋势观点。

动机：旨在对多模态基础模型进行综合调查，重点关注从专家模型向通用助手的转变，以展示视觉和视觉语言能力的多模态基础模型的分类和演变。方法：论文通过分类两类核心主题，包括已建立的研究领域和开放性研究领域，来介绍多模态基础模型的学习方法和训练技术。优势：论文全面综合了多模态基础模型的研究进展，对于想要了解多模态基础模型基础知识和最新进展的研究人员、研究生和专业人士具有重要参考价值。

微软｜多模态基础模型：从专家到通用助手