斯坦福｜多任务无需标注，基于反事实世界建模的统一机器视觉

大模型2年前 (2023)发布智源社区

628 0 0

Unifying (Machine) Vision via Counterfactual World Modeling

Daniel M. Bear, Kevin Feigelis, Honglin Chen, Wanhee Lee, Rahul Venkatesh, Klemen Kotar, Alex Durango, Daniel L.K. Yamins

[Stanford University]

基于反事实世界建模的统一(机器)视觉

论文地址：https://arxiv.org/abs/2306.01828

动机：通过构建一个视觉基础模型来统一(机器)视觉领域。现有的机器视觉方法在不同任务上采用不同的架构，并在昂贵的任务特定标注数据集上进行训练。这种复杂性阻碍了机器人等领域在鲁棒的任务通用感知方面的进展。与之相反，自然语言领域的“基础模型”展示了大型预训练神经网络如何提供零样本解决方案来执行广泛的明显不同的任务。本论文引入反事实世界建模(CWM)，一个构建视觉基础模型的框架：一个统一的无监督网络，可以通过提示执行各种视觉计算。

所提出的Counterfactual World Modeling(CWM)框架包含两个基本概念，建立在基础模型的两个基本组成部分之上：1. 通过结构化掩码预测进行预训练。研究发现，简单但非平凡的掩码变体能够产生高度不同的学习表示，从而使模型能够对场景、物体和动态的物理结构进行编码。2. 通过反事实提示建立通用任务接口。研究表明，通过对视觉输入进行简单修改并观察扰动后的模型响应，可以以零样本的方式提取核心计算机视觉概念。这些反事实可以数学上形式化为基础预测模型本身的导数，从而提供了识别“自然”反事实提示和使用自动求导方法高效实现的方式。

优势：通过CWM构建了高质量的视觉概念输出，包括关键点估计、光流、遮挡、目标分割和相对深度等多个任务，而无需任何标注数据。CWM的反事实物理推理能力适用于涉及模型预测控制和规划的应用，如机器人领域。还展示了CWM框架如何在现代基础模型框架中综合多种经典计算机视觉概念，为生物系统中这些能力的统一计算理论提供了实践解决方案。

提出了Counterfactual World Modeling(CWM)框架，通过结构化掩码预测和反事实提示，构建了一个统一的、无监督的视觉基础模型，能执行各种视觉计算。