大连理工大学IIAU团队蝉联五年VOT国际竞赛冠军-大连理工大学未来技术学院/人工智能学院（new）

近日，国际视觉跟踪竞赛Visual Object Tracking Challenge 2022 (VOT2022) 在ECCV2022（欧洲计算机视觉国际会议）期间举行了颁奖仪式和比赛总结。大连理工大学电子信息与电气工程学部卢湖川教授带领的IIAU实验室分别在长时、深度及RGBD三个赛道获得冠军。自2018年起，IIAU实验室已连续五年在该国际竞赛的多个赛道中夺冠。本次长时赛道的冠军算法VITKT_M由博士生赵洁、陈鑫和刘畅共同合作完成，指导老师是卢湖川教授、王栋教授和彭厚文老师。深度赛道和RGBD赛道的冠军算法MixFormerD/MixFormerRGBD由博士生赖思邈、硕士生李明和博士生祝嘉文共同合作完成，指导老师为卢湖川教授、王立君副教授和王栋教授。第一作者赵洁、赖思邈分别应邀在颁奖仪式上作远程大会报告，向与会代表介绍各自获奖算法的核心内容。

Visual-Object-Tracking Challenge (VOT) 是当前国际上在线目标跟踪领域最权威的测评，每年都在顶级会议期间举行workshop，旨在评测在复杂场景下单目标跟踪的算法性能。由于每年的评测序列都会更新，且标注的精确度逐年提高，VOT竞赛也被视为视觉跟踪领域最难的竞赛，远远超过了其他数据集。因此，每年最好的追踪算法都会在上面一展拳脚，在激烈的比拼中擦出灵感的火花。自2017年起，IIAU实验室持续在该国际竞赛的多个赛道上击败牛津大学、卡耐基梅隆大学、微软亚洲研究院等国际著名AI实验室和知名院校夺得冠军。其中，VOT2017由博士生孙冲取得公开组第一名；VOT2018由硕士生张允华取得长时赛道的冠军；VOT2019由硕士生代克楠取得长时赛道冠军；VOT2020中，硕士生代克楠、严彬、王英明分别取得了长时、实时和深度三个赛道的冠军；VOT2021中，博士生陈鑫和张新宇分别取得长时和深度两个赛道的冠军。今年的VOT2022中，博士生赵洁和赖思邈在长时、深度和RGBD三个赛道夺冠。

对于长时跟踪任务，目标的频繁消失及再出现是一个巨大挑战。相较于短时跟踪器，长时跟踪器需要具备判断目标是否消失及快速重找回目标的能力。此外，目标干扰物也是影响跟踪鲁棒性的另一大挑战。本次IIAU团队提出了一个运动感知的集成跟踪算法VITKT_M，获得了长时赛道的冠军。具体来说，将两个具有互补属性的跟踪模型通过验证器集成，选择最优结果，并提出一个运动模块来检测异常的目标运动轨迹，进而对跟踪器的漂移情况进行约束。其中互补的跟踪模型分别为基于Transformer的ViTTrack模型和针对干扰物挑战的KeepTrack模型。验证器则主要根据跟踪模型对应的置信度分数及额外的相似度估计进行选择和判断。

对于RGBD跟踪来说，如何有效地融合深度特征使得跟踪器在光照变化、相似物干扰和景群集等普通RGB跟踪器不能很好应对的复杂场景下表现地更加鲁棒是一个亟待解决的问题。前两年的冠军算法均仅利用了深度信息启发式地判断目标是否被遮挡或者出视野，今年随着带有深度的跟踪训练集的出现以及VOTRGBD2022赛道的短时设置，团队提出了针对RGBD跟踪基于交互混合注意力的端到端跟踪算法MixFormerRGBD。该算法在MixFormer的基础上新增一条深度图分支，接收经过JET风格编码后的深度图。经过交互混合注意力的主干网络之后分别得到了注入了目标信息的RGB和深度搜索特征，利用逐元素取大值的操作进行融合之后送入后续的坐标回归和目标分数预测网络。在加载预训练RGB参数的基础上，团队使用了DepthTrack 训练集以及DenseDepth在LaSOT、GOT10k、COCO上生成的深度图对整体网络进行微调。
类似地，对于深度跟踪赛道，由于只有深度图可以利用，团队取代了MixFormerRGBD的RGB输入而换成归一化之后的深度图进行微调，并提出了跟踪漂移惩罚策略，以针对跟踪过程中不可信的位移突变情况进行惩罚，最终在深度和RGBD赛道上取得了大幅领先的成绩。如下图所示，在VOT-RGBD2022赛道上我们领先第二名1.7个百分点，在VOT-D2022赛道上我们领先第二名2.7个百分点。