Loading...

商汤/AI Lab/港大提出HQNet | 一个Query即可解决检测/分割/姿态/结构化

点击下方卡片,关注「AI视界引擎」公众号

商汤/AI Lab/港大提出HQNet | 一个Query即可解决检测/分割/姿态/结构化

人类为中心的感知(例如行人检测、分割、姿态估计和属性分析)是计算机视觉的一个长期问题。本文介绍了一个统一和多功能的框架(HQNet)用于单阶段多人员多任务人类为中心感知(HCP)。

本文的方法侧重于学习一个统一的人类 Query 表示,称为人类 Query ,它捕捉了个人实例级的复杂特征,同时解耦了复杂的多人场景。尽管不同的HCP任务已经被单独研究,但尚未在文献中完全利用单阶段多任务HCP任务的学习,因为缺乏全面的基准数据集。

为了解决这个问题,本文提出了COCO-UniHuman数据集,以支持模型开发和全面评估。

1 Introduction

人类为中心的视觉感知(例如行人检测、姿态估计、人类分割和人类属性识别)由于其在广泛工业应用中的普及,如体育分析、虚拟现实和增强现实,越来越受到研究者的关注。

单阶段多人员多任务人类为中心感知(HCP)的任务在文献中尚未得到充分利用,原因在于缺乏一个代表性的基准数据集。因此,之前的研究所采用的方法是针对每个HCP任务在不同的数据集上训练模型,这带来了一定的局限性。

  • 首先,不同数据集之间存在固有的规模差异。例如,人类检测数据集包括具有多个交互式人的场景图像,而属性识别数据集通常包含具有单个裁剪人的图像。这阻碍了开发可以全面解决各种HCP任务作为统一问题的单阶段多任务算法。

  • 其次,单任务数据集通常针对特定的应用场景设计,导致不同数据集之间的数据集偏差。例如,某些数据集是在受控实验室环境中捕获的,而某些数据集是从监控视角捕获的。盲目地将这些数据集组合在一起训练模型无疑引入了数据集偏差,并阻碍了在实际、无约束场景中的性能。尽管为每个HCP任务提供了单独的基准,但仍然缺乏一个可以同时评估多个HCP任务的全面基准。

为了解决这个问题,作者引入了一个名为COCO-UniHuman的大规模基准数据集,专门设计用于统一人类为中心感知。

如图1所示,大多数流行的HCP任务可以分为四个基本类别:分类、检测、分割和关键点定位。COCO-UniHuman数据集通过为每个人员实例广泛标注性别和年龄标签,扩展了COCO数据集。它涵盖了这四个类别,包括6个不同的HCP任务(如图1中用对勾 Token )。

商汤/AI Lab/港大提出HQNet | 一个Query即可解决检测/分割/姿态/结构化

在多人员多任务人类为中心感知(HCP)的前期研究中,大多数方法采用了多阶段方法。这些方法通常涉及使用人类检测器检测人类实例,然后为每个单独的人感知任务(如姿态估计和实例分割)使用特定任务的模型。然而,这些方法存在三个显著的缺点。

  • 首先,它们存在早期承诺问题:整个流水线的性能高度依赖于人体检测,如果人体检测器失效,则无法恢复。

  • 其次,运行时间与图像中的人的数量成正比,使它们在实时应用中计算昂贵。相比之下,单阶段方法在一次遍历中估计所有所需的属性,从而提高了效率。

  • 第三,这些方法忽视了潜在的任务协同作用。不同的HCP任务高度相关,因为它们共享对人体结构的共同理解。

在本工作中,作者开发了一个简单、直接和通用的 Baseline 框架,称为HQNet,用于单阶段多任务人类为中心感知。它将各种不同的人为中心任务统一起来,包括行人检测、人类分割、人类姿态估计和人类属性分析(特别是性别和年龄)。

不同的HCP任务具有各自相关但不同粒度的特征,以关注点为单位。例如,行人检测强调全局语义特征;属性识别需要全局和局部语义线索;人类分割依赖于细粒度的语义特征;而姿态估计需要细粒度的语义和定位信息。在本论文中,作者提出了一种学习统一的一站式 Query 表示的方法,称为人类 Query ,以编码多个视角的实例特定特征。

作者的工作受到基于DETR的方法的启发,这些方法使用可学习的 Query 嵌入来表示目标,并推理目标之间的关系和图像特征。本研究在这些工作的基础上,通过学习通用的实例级 Query 表示,以实现通用的人类为中心感知。尽管缺乏复杂的模型设计,但HQNet在各种基准测试中实现了最先进的结果。此外,作者还强调了HQNet的几个值得注意的特点,包括灵活性、可伸缩性和可迁移性。

灵活性: HQNet可以轻松地与各种 Backbone 网络(如ResNet,Swin和ViT)集成。

可伸缩性: HQNet中的权重共享 Backbone 、 Transformer 编码器和解器可以无缝集成多个任务,每个任务特定的 Head 的开销最小,从而证明了惊人的可伸缩性。

可迁移性: 实验表明,学习的人类 Query 对新的人类为中心感知任务(如面部检测和多目标跟踪)具有很强的可迁移性。值得注意的是,本工作不声称算法优越性,而是建立了一个具有优越性能的人类为中心感知的坚实 Baseline 。

作者的工作做出了以下关键贡献:

  1. 提出了COCO-UniHuman基准数据集,这是一个大规模的数据集,全面覆盖了所有代表性的HCP任务,即分类(性别和年龄估计)、检测(身体和面部检测)、分割和关键点定位。

  2. 开发了一个简单而有效的 Baseline HQNet,采用单阶段多任务方式将多个独特的HCP任务统一起来。关键思想是学习统一的一站式 Query 表示,称为人类 Query ,它从多个角度编码实例特定特征,以多种粒度进行。作者的方法在不同的HCP任务上实现了最先进的结果,证明了学习的人类 Query 的强大表示能力。

  3. 此外,实验表明学习的人类 Query 对新的人类为中心感知任务(如面部检测和多目标跟踪)具有很强的可迁移性。作者希望作者的工作可以为开发单阶段多人员多任务HCP算法提供启示。

2 Related Works

Human-centric perception tasks and datasets

人类为中心的感知(HCP)任务,包括姿态估计,分割,和属性识别,在计算机视觉领域得到了广泛的关注。多人员HCP的方法可以分为自上而下、自下而上和单阶段方法。自上而下的方法遵循检测然后分析的方法。它们首先定位人类实例,然后执行单人分析。

自上而下方法可以分为两种类型:使用单独预训练检测器和任务特定感知模型,和使用联合学习检测和感知模块。自下而上的方法学习实例无关的关键点/掩码,并使用整数线性规划,启发式贪心解析,嵌入聚类,或可学习聚类进行聚类。单阶段方法直接预测每个个体的关键点或掩码,具有不同的表示形式(基于坐标的,热力图的,或混合的姿势估计,以及基于轮廓的或掩码的分割。虽然大多数现有的方法都专注于单个HCP任务,旨在通过学习一个同时处理多个任务的一个模型来实现人类为中心的感知,从而实现对人类的全面理解。

如图1所示,针对不同的HCP任务,有许多单独标注的任务特定数据集,包括行人检测,姿态估计,人类分割,和人类属性识别。同时针对多个HCP任务的数据集也存在。广泛使用的COCO提供了详细的标注,包括身体框,关键点和分割掩码。作者的COCO-UniHuman数据集进一步扩展了COCO,具有广泛的性别和年龄标注。

Unified methods for HCP

不同HCP任务的通用网络架构。一些工作设计了通用的网络 Backbone ,包括基于CNN和基于Transformer的 Backbone 。其他人则通过新颖的感知头将HCP任务统一,如UniHead。与这些方法不同,作者将在单个网络中整合不同的HCP任务。HCP任务的预训练。 有一些工作对大规模的多样化人类为中心任务进行预训练。UniHCP提出了一种统一的视觉 Transformer 模型,在规模上进行多任务预训练。它使用任务特定的 Query 进行相关特征的注意,但一次只解决一个任务。与作者的方法不同,作者的方法在一次正向传播中同时解决多个HCP任务。

作者的方法与这些基于预训练的方法不同,避免了预训练,最小化了微调,并绕过了资源密集型多数据集训练。与它们不同,作者在单阶段、多任务方式下同时处理多个HCP任务,与他们的单人关注不同。HCP任务的联合学习。 许多工作研究了不同HCP任务之间的相关性[50, 61, 62, 75, 97]。作者提出了一种单阶段模型,该模型学习一个通用的统一表示,同时处理所有代表性的HCP任务。

Object-centric representation learning

DETR 开创了可学习的目标 Query ,以表示目标并与图像特征进行交互。Deformable DETR 引入了可变形注意力模块,以关注关键采样点,从而增强了收敛速度。DAB-DETR 将每个位置性 Query 都视为一个动态的4D Anchor 框,并在解码层中进行更新。DN-DETR 采用去噪训练以实现更快的收敛。最近,DINO 合并了这些技术,引入了一种混合 Query 选择和向前看两次策略,以加速并稳定训练。本文的工作受到基于DETR的方法的启发。尤其是,作者基于DINO并将其扩展到开发一个通用的框架,用于单阶段多任务人类为中心感知,统一多个独特的以人类为中心的任务。

3 COCO-UniHuman Dataset

COCO-UniHuman 是最大规模的数据集,为多人在场景下提供了四种代表性的 HCP 任务标注。在基于 COCO 的基础上,作者通过包含每个个体的性别和年龄信息丰富了标注。

唯一性。新引入的数据集与现有的 HCP 数据集相比具有几个显著的特点。

(1) 全面性: 这是第一个涵盖所有四种基本 HCP 任务(即分类、检测、分割和关键点定位)的多人场景下的大规模多人员 HCP 数据集。它有助于开发和评估单阶段多人员多任务 HCP 算法。

(2) 大规模和高多样性: 该数据集拥有超过 20 万张图像和 273,000 个身份,在照明条件、图像分辨率、人体姿势和室内/室外环境等方面表现出显著的变化。

(3) 多人员属性识别: 与其他现有仅提供单人中心裁剪图像的属性识别数据集不同,作者的建议数据集为多人员属性识别提供了有价值的基准,适用于具有挑战性的场景。

(4) 基于身体的显性年龄估计: 尽管以前的研究主要关注基于面部图像预测一个人的年龄,但作者的数据集强调利用从全身图像中获得的更丰富的视觉线索。将身体基于的视觉线索(如皮肤弹性、身体姿势和身体高度)纳入估计一个人的年龄是有益的,尤其是在面部图像不清晰的情况下(例如从远处拍摄)。值得注意的是,现有的大规模行人属性数据集通常只提供粗略的年龄组标注,而面部属性数据集[2]通常提供细粒度的显性或真实年龄标注。作者的建议数据集填补了这一差距,成为野外基于身体的显性年龄估计的领先大规模数据集。

(5) 增强的人类表示: 扩展的属性标签提供了关于个人除现有标签之外的其他描述性信息。通过利用这些属性标签,模型可以学习改进的人类表示,从而提高其他 HCP 任务的表现。此外,包括性别和年龄标签可以在下游应用中发挥价值(例如性别/年龄特定的 SMPL 模型选择)。

Data Annotation

为了确保准确的标注,作者使用经过训练的标注员手动标注数据集中每个人体实例的性别和显性年龄。作者排除所有包含非人类目标的图像,并排除所有难以识别属性的_小_类别人员。

性别标注。 对于每个有效的人体实例,作者采用基于身体的标注方法。使用提供的人体边界框,作者裁剪身体图像,并请标注员标注性别。为了保持数据质量,作者整个标注过程中进行质量检查和手动更正。

年龄标注。 为了提高标注质量,作者采用基于身体的两阶段策略。与性别标注类似,年龄标注也针对裁剪的身体图像进行。作者实现了一个从粗粒度到细粒度的两阶段标注策略,认为年龄组标注相对容易,而显性年龄标注[2]则较为困难。

在第一阶段,年龄组被标注。参考[44],作者将年龄范围分为六个组,即”婴儿”、”孩子”、”青少年”、”年轻人”、”中年人”和”老年人”。对于每个裁剪的人体图像,请一组10个标注员独立并重复地标注年龄组(6-类别分类任务)。将10个标注员投票的模式作为 GT 年龄组。

在第二阶段,显性年龄被标注。给定年龄组作为先验,一组10个标注员独立并重复地标注显性年龄。因此,为每个人体实例获得10个投票。作者删除异常值并取平均值作为最终 GT 显性年龄。

总之,该数据集包含超过100万个显性年龄投票。实验验证了基于身体的标注策略和两阶段标注策略的有效性(见第A2节)。

4 Method

Overview

本研究旨在开发一个单阶段框架,有效支持各种人类为中心感知(HCP)任务。关键是学习一个全面的人类表示,可以在各种HCP任务中普遍应用。为实现这一目标,作者采用基于 Query 的方法,并研究将每个人实例表示为单个共享 Query 的可行性。

作者的框架具有简单性、灵活性和可扩展性的特点。与先前的特定任务HCP模型(例如Mask DINO中的”mask-增强 Anchor 框初始化”)不同,作者的方法旨在以统一的方式处理各种人类为中心分析任务。为了最大限度地共享各种HCP任务之间的知识,作者试图在不同的HCP任务之间共享大部分权重。

商汤/AI Lab/港大提出HQNet | 一个Query即可解决检测/分割/姿态/结构化

如图2所示,作者的框架包括四个关键组件:Backbone 网络、Transformer编码器、任务共享Transformer解码器和任务特定头。Backbone 网络,如ResNet,将图像作为输入并产生多 Scale 特征。这些特征,以及相应的位置嵌入,然后通过Transformer编码器进行增强以获得特征表示。作者使用混合 Query 选择技术将初始 Anchor 框作为位置 Query 用于Transformer解码器。

遵循DINO,只初始化位置 Query 但不过初始化内容 Query 。与先前的使用特定任务的Transformer解码器的方法不同,提出使用任务共享解码器进行所有HCP任务。Transformer解码器包括变形注意力来在解码层中细化 Query 。将细化后的内容 Query 称为”人类 Query “,因为它们编码与人类实例相关的多样化信息。最后,人类 Query 被输入到每个轻量级任务特定头进行最终预测。

Task-shared Transformer Decoder

DETR类似模型中的 Query 由两部分组成:位置 Query 和内容 Query 。每个位置 Query 都表示为一个4D Anchor 框,编码框的中心x-y坐标、宽度和高度。作者的内容 Query ,称为”人类 Query “,包含每个实例特有的各种特征(局部和全局外观特征,以及粗粒度和细粒度的定位特征)。

对比性去噪 (CDN)。 为了提高训练稳定性和加速,采用了DINO中介绍的对比性去噪 (CDN)。值得注意的是,作者观察到为其他任务(例如分割和姿态估计)引入辅助去噪损失并不能带来显著的改进。因此,作者只针对人类检测应用DN损失。

人类 Query -实例匹配。 为了确保所有HCP任务(包括分类、检测、关键点和分割)中每个真实实例的预测一致且唯一,采用了人类 Query -实例(HQ-Ins)匹配。其中是相应的损失权重(参见第A4节详细说明)。

Task-specific Heads

为了保证可扩展性,将HCP任务分为三个类别,并为每个类别设计特定的实现范式。

坐标预测任务(例如目标检测和姿态估计)与边界框预测共享参考点,并直接回归每个点的归一化偏移量。

密集预测任务(例如实例分割和人类解析)遵循Mask DINO的设计,涉及将 Backbone 网络和Transformer编码器中的特征整合到一个高分辨率像素嵌入图中。

通过在内容 Query 嵌入和像素嵌入图之间执行点积操作,可以生成一个实例感知的像素嵌入图,从而促进像素级分类。

分类任务(例如确定一个实例是否是人类、性别和年龄估计)直接将人类 Query 映射到分类预测结果,因为人类 Query 本质上编码了位置信息。

为了最小化纳入新任务的