CVPR 2023 冠军解决方案，零样本异常分割新突破！

强化学习3年前 (2023)发布智源社区

796 0 0

前言本文介绍了CVPR2023 冠军解决方案，零样本异常分割新突破！

Pytorch训练营，花两个星期彻底掌握代码实现

CV各大方向专栏与各个部署框架最全教程整理

CV全栈指导班、基础入门班、论文指导班全面上线!!

来源：我爱计算机视觉

仅用于学术分享，若侵权请联系删除

论文题目为Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection。

详细信息如下：

作者：Yunkang Cao ;Xiaohao Xu ;Chen Sun等人
作者机构：State Key Laboratory of Digital Manufacturing Equipment and Technology(数字化制造装备与技术国家重点实验室)；Huazhong University of Science and Technology, China(华中科技大学)等
论文链接：https://arxiv.org/pdf/2306.09067.pdf
项目链接：https://github.com/caoyunkang/Segment-Any-Anomaly

本报告介绍了团队Segment Any Anomaly在 CVPR2023 视觉异常与新奇检测挑战赛中的获胜解决方案。该解决方案名为Segment Any Anomaly +（SAA+），通过使用多模态提示实现了零样本异常分割，以及级联现代基础模型的正则化。

首先，通过将基础模型如”Segment Anything”进行组合（SAA），利用多模态先前知识实现异常定位。随后，引入多模态提示（SAA+），这些提示来自领域专家知识和目标图像上下文，从而使基础模型在异常分割中能够进行非参数适应。

所提出的SAA+模型在零样本设置下，在多个异常分割基准数据集上（包括VisA和MVTec-AD）取得了最先进的性能

1 引言

本文介绍了在零样本异常分割领域的研究工作。通过使用基础模型、语言提示和分割方法，作者旨在在图像中进行异常分割。然而，简单的语言提示可能会导致误报问题，而且在领域转移和上下文不明确的情况下表现不佳。为了解决这些问题，作者提出了一种新的框架——Segment Any Anomaly +（SAA+），其中融合了领域专家知识和目标图像上下文。专家知识提供了与目标相关的异常详细描述，而上下文提示能够准确地关联目标图像中的物体上下文和异常预测。这一方法在多个异常分割基准数据集上取得了最先进的性能。总之，通过引入专家知识和目标上下文，作者的方法在零样本异常分割任务中取得了显著的改进。

2 从纯粹的基础模型组合开始，带有语言提示

本节介绍了从纯粹的基础模型组合开始，通过语言提示进行零样本异常分割（ZSAS）的研究。作者构建了一个基线模型SAA，其中包含异常区域生成器和异常区域细化器。然而，实验表明纯粹的语言提示可能导致语言歧义问题。为了解决这个问题，作者提出了引入领域专家知识和目标图像上下文生成多模态提示的方法，从而改进ZSAS的性能。这一方法在减少数据需求和降低实际成本方面具有潜在的优势。

3 利用多模态提示调适基础模型进行异常分割

为了解决SAA中的语言歧义问题并提升其在ZSAS上的能力，作者提出了升级版的SAA+，该版本融合了多模态提示，如图2所示。除了利用预训练基础模型所获取的知识外，SAA+还利用领域专家知识和目标图像上下文生成更准确的异常区域掩码。

3.1 从领域专家知识生成的提示

本节介绍了一种升级版的异常分割方法SAA+，旨在通过利用领域专家知识和多模态提示解决语言歧义问题，并提高零样本异常分割（ZSAS）任务的性能。SAA+利用了专家知识生成更准确的异常区域掩码，包括异常语言提示和异常属性提示。异常语言提示通过类别无关和类别特定提示细化了“异常”提示，异常属性提示考虑了异常的位置和面积信息。通过结合这两种多模态提示，SAA+在异常分割中获得更精确的结果。

3.2 从目标图像上下文中衍生的提示

本节介绍了从目标图像上下文中衍生的多模态提示，用于提高异常区域检测的准确性。异常显著性提示利用显著性图来校准基础模型的置信度分数，而异常置信度提示通过选择最高置信度的候选区域来提供最终的异常区域检测。结合这两种提示以及之前的多模态提示，SAA+被提出，为异常分割任务提供更准确可靠的预测。

4 实验

首先评估SAA/SAA+在几个异常分割基准上的性能。然后，作者广泛研究个人多模态提示的有效性。

4.1 实验设置

数据集： 利用两个带有像素级标注的数据集：VisA和 MVTec-AD ，两者都包括各种对象子集，例如电路板。

评价指标： 以max-F1-pixel (Fp) 作为评估指标来评价ZSAS性能，该指标在最优阈值下衡量像素级分割的F1得分。

实现细节： 采用GroundingDINO和 SAM 的官方实现构建了基准模型SAA。有关从领域专家知识派生的提示的详细信息可以在补充材料中找到。对于从图像内容引发的显著性提示，使用在ImageNet上预训练的WideResNet50 网络，并根据先前的研究将N设置为400。对于异常置信度提示，将超参数K默认设置为5。输入图像分辨率固定为400 × 400。

4.2 主要结果

比较方法： 将作者的最终模型，即Segment Any Anomaly + (SAA+)，与几种当前最先进的方法进行比较，包括WinClip 、UTAD 、ClipSeg和作者的基准模型 (SAA)。对于WinClip，作者报告其在VisA和MVTec-AD上的官方结果。对于其他三种方法，作者使用官方实现并将其调整为ZSAS任务。

定量结果： 如表1所示，SAA+方法在Fp方面的性能明显优于其他方法。尽管WinClip、ClipSeg 和 SAA 也使用了基础模型，但SAA+能更好地发挥基础模型的能力并使其适应ZSAS任务。SAA+的出色性能满足了在不需要训练的情况下分割任何异常的期望。

定性结果： 图3呈现了SAA+与先前竞争方法之间的定性比较，其中SAA+实现了更好的性能。此外，可视化结果显示SAA+能够检测各种类型的异常。

4.3 消融实验

在表2中，作者进行了分量分析，以消融作者框架中的特定提示设计，从而验证了所有多模态提示的有效性，包括语言提示 (PL)、属性提示 (PP)、显著性提示 (PS) 和置信度提示 (PC)。

5 结论

本研究通过引入多模态提示（领域专家知识、图像上下文等）来规范化现代基础模型，实现了在零样本情况下分割任何异常的目标。该方法利用了各种提示来提高基础模型在异常分割任务中的性能，从而在多个基准测试中取得了新的最先进结果。核心方法是使用多模态提示来实现无需额外训练的异常分割，为视觉异常检测领域提供了新的解决思路。

若觉得还不错的话，请点个 “赞” 或 “在看” 吧

论文指导班

论文指导班面向那些没有导师指导、需要升学申博的朋友，指导学员从零开始调研相关方向研究、尝试idea、做实验、写论文，指导老师会提供一些idea、代码实现部分的指导、论文写作指导和修改，但整体仍然是由学员自主完成。需要说明的是，论文指导班并非帮你写论文，或者直接给一篇论文让你挂名，我们不会做任何灰色产业，因此，想直接买论文或挂名的朋友请勿联系。

指导老师：

海外QS Top-60某高校人工智能科学博士在读, 师从IEEE Fellow，曾在多家AI企业担任研究实习生和全职算法研究员，具备极强的学术届和工业界综合背景。研究领域主要包括通用计算机视觉模型的高效设计，训练，部署压缩以及在目标检测，语义分割等下游任务应用，具体包括模型压缩 (知识蒸馏，模型搜索量化剪枝), 通用视觉模型与应用(VIT, 目标检测，语义分割), AI基础理论(AutoML, 数据增广，无监督/半监督/长尾/噪声/联邦学习)等；共发表和审稿中的15余篇SCI国际期刊和顶级会议论文，包括NeurIPS，CVPR, ECCV，ICLR，AAAI, ICASSP等CCF-A/B类会议。发明专利授权2项。

长期担任计算机视觉、人工智能、多媒体领域顶级会议CVPR, ECCV, NeurIPS, AAAI, ACM MM等审稿人。指导研究生本科生发表SCI, EI，CCF-C类会议和毕业论文累计30余篇，有丰富的保研,申博等方面经验，成功辅导学员赴南洋理工，北大，浙大等深造。

涉及范围：CCF会议A类/SCI一区、CCF会议B类/SCI二区、CCF会议C类/SCI三区、SCI四区、EI期刊、EI会议、核心期刊、研究生毕业设计

报名请扫描下方二维码了解详细情况，备注：“论文班报名”。

CVPR 2023 冠军解决方案，零样本异常分割新突破！

如果有其他想要当论文指导老师的朋友，请发简历给我，同样扫描上方二维码，备注：“论文指导老师”。基本条件：已发表两篇以上一作顶会，或3-5篇其他级别的一作论文，学历在985博士及以上。

文章版权归作者所有，未经允许请勿转载。

社区供稿 | 基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历

智源社区

1,309

社区供稿 | LMDrive: 大语言模型加持的闭环端到端自动驾驶框架

智源社区

1,139

【AIIG观察第205期】布鲁金斯学会：美国需采取一个全面、分布式的人工智能监管方法

智源社区

690

听说，今天有人黑量化～

智源社区

664

博士论文 | 从结构化文档到结构化知识 150页

智源社区

605

【医学图像描述】MedICaT: 医学图像，描述和文字参考的数据集（EMNLP-Findings 2020）

智源社区

1,368

暂无评论

暂无评论...

CVPR 2023 冠军解决方案，零样本异常分割新突破！

1 引言

2 从纯粹的基础模型组合开始，带有语言提示

3 利用多模态提示调适基础模型进行异常分割

3.1 从领域专家知识生成的提示

3.2 从目标图像上下文中衍生的提示

4 实验

4.1 实验设置

4.2 主要结果

4.3 消融实验

5 结论

CVPR 2023 中的领域适应：用于切片方向连续的无监督跨模态医学图像分割

优化 | 面向协作多智能体强化学习的完全去中心化算法框架

相关文章

暂无评论

相关文章

热门标签

热门网址