成果简介:人群分析技术是计算机视觉和深度学习中的一个重要研究领域,包含人群计数和人群定位两大基本任务。该技术可以对某一区域内的人群密度进行分析研判,及时对潜在的公共安全威胁做出预判并响应,避免发生严重的安全事故。然而,由于相机的透视效应,人群图像中人的头部会存在尺寸不一的情况,从而影响系统的计数和定位性能。
为了解决这一问题,本项目从获得完备的多尺度信息出发,提出了一种用于人群定位的新型变换网络,名为跨尺度视觉变换网络,它能在编码和解码阶段学习多尺度信息,同时在组合特征图上建立长距离上下文依赖关系。为此,我们设计了多尺度编码器,在相应位置融合多个尺度的特征图,从而获得组合特征图;同时设计了多尺度解码器,在建模长距离上下文依赖关系时融合多个尺度的向量。此外,我们还提出了多尺度SSIM损失,它自适应地计算头部区域并在多个尺度下优化预测图和标签图之间的相似性。具体来说,我们为每个头部设置了不同尺度的自适应窗口,并在这些窗口内计算损失值,从而提高预测距离变换图的质量。我们在五个公开数据集上进行了大量实验,实验结果证明了我们方法的有效性和优异性能。
本项目成果的创新点在于:1、现有的基于变换网络的方法只考虑了一次多尺度信息融合,导致了多尺度信息融合是不完整的。我们的方法创新地在多个阶段融合多尺度信息,从而提高定位和计数性能;2、目前的方法仅比较标签图和预测图中单一尺度区域内的相似性,忽略了每个头部所占区域不同的事实,我们的方法创新地在多尺度自适应头部区域内比较相似性,进一步提高性能。
在实践方面,我们基于该方法申请了国家发明专利,现已被正式授权。
[1]Cross-scale Vision Transformer for Crowd Localization(发表于Journal of King Saud University - Computer and Information Sciences,中科院二区期刊)
[2]Person Re-identification using Local Relation-Aware Graph Convolutional Network(发表于Sensors,中科院三区期刊)
[3] 一种基于跨尺度视觉变换网络的人群定位方法(授予国家发明专利)