Loading...

热门

大型语言-视觉模型的视觉提示工程

智源社区3年前 (2023)发布智源社区

1,162 0 0

What does CLIP know about a red circle? Visual prompt engineering for VLMs

Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
[University of Oxford]

大型语言-视觉模型的视觉提示工程

要点:

动机：研究如何让计算机视觉模型更好地理解图像，并探讨大型语言-视觉模型存在的潜在伦理问题。
方法：通过在图像上标记(比如画圈)的方式来引导模型更好地理解图像，从而在一些任务上取得了很好的效果，并对模型行为进行了分析，以探究模型的表现原因。
优势：这种标记方法能够在零样本情况下帮助模型更好地理解图像，并在一些任务上取得了很好的效果。此外，该论文还探讨了大型语言-视觉模型存在的潜在伦理问题。

研究了如何通过简单的标记(比如画个红圈)来引导计算机视觉模型(如CLIP)更好地理解图像，从而在一些任务上取得了很好的效果，并探讨了大型语言-视觉模型存在的一些潜在的伦理问题。

https://arxiv.org/abs/2304.06712
大型语言-视觉模型的视觉提示工程

# 智源社区 # 视觉 # 视觉 # 论文

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

悉尼科技大学 | 通过交互式提示进行高效的多模式融合

智源社区

1,277

大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

智源社区

1,383

离散扩散模型的引导方法：基于引导离散扩散的蛋白质设计

智源社区

936

ETHZ最新成果 | 时尚领域中的掩码视觉-语言Transformer模型

智源社区

1,161

在使用函数逼近的高效在线强化学习中，普适覆盖条件的可证明益处

智源社区

931

GPT-3当一作自己研究自己，已投稿，在线蹲一个同行评议

智源社区

1,147

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2026 Ai导航鄂ICP备2023001728号