大连理工大学王栋:视觉目标跟踪的未来是这样的

  视觉目标跟踪作为计算机视觉中的一项基本任务,近年来受到了广泛的关注。大多数研究都集中在短时视觉跟踪上,它可以处理较短的视频和始终可见的目标。然而,长时视觉跟踪更接近具有更复杂挑战的实际应用。在长时跟踪任务中视频存在更长的持续时间,例如分钟级甚至小时级,并且该任务还需要处理更频繁的目标消失和再现。大连理工大学王栋教授团队全面回顾了长时跟踪,从两个角度总结了长时跟踪算法:框架架构和中间跟踪结果的使用。然后详细描述了现有的基准和相应的评估协议。此外还在六个基准上进行了广泛的实验并分析了跟踪器的性能。最后,文章从多个角度讨论了未来的前景,包括算法设计和基准构建。相关内容可见:

  https://github.com/wangdongdut/Long-term-Visual-Tracking.

  

  全文导读

  视觉目标跟踪是计算机视觉中一项基本且重要的任务,有许多实际应用,如智能监控和自动驾驶等。近些年来,人们进行了许多尝试和努力。得益于深度学习的发展,视觉跟踪领域发展迅速并取得了显著的成功。然而,大多数现有的跟踪算法和基准都侧重于短时跟踪,它可以在短时间内(通常为20-30秒)有效地处理始终可见的目标的外观和运动变化。长时跟踪的关注则相对较少。

  长时跟踪任务旨在以分钟级甚至小时级的时间持续跟踪视频中的特定目标,这更接近实际应用。与短时跟踪相比,其目标可能面临更复杂和更严峻的挑战。此外,该任务需要处理由于离开视野或完全遮挡而导致的跟踪场景中频繁的目标消失和再现。对目标的重检测能力至关重要。

  最近的几项研究表明,短时跟踪器在非常长的序列上表现不佳。由于模板污染、长时间的定位误差累积以及缺乏解决目标消失问题的重新检测能力,短时跟踪器更可能在长时场景中发生漂移和跟踪失败等问题。图1将长时跟踪中一些具有代表性和挑战性的场景进行了可视化。在第一行中,目标从视野底部消失,又在左上方重新出现。在第二行和第三行中,目标被背景完全遮挡,又在被遮挡后从另一个视野区域中再次出现。在第四行,由于观察角度和距离的变化,目标的外观发生了巨大变化。

  

  当前已经有许多研究回顾了短时追踪器。然而,尽管学界已经提出了各种长时跟踪算法,但尚未有对算法、评估基准和详细的性能分析进行全面深入的综述。本文从统一的角度重新审视了现有的长时跟踪算法,并将它们在流行的基准上进行了比较。本文主要贡献总结如下。

  由统一的角度从各个方面全面回顾了长时跟踪算法。本文收集了现有的长时跟踪算法,并基于两方面对其进行分类:框架架构和中间跟踪结果的使用。文章还详细描述了具有相应评估协议的长时跟踪基准。

  根据流行的基准对主流的长时跟踪器进行综合评估。本文收集了有代表性的长时跟踪器,并根据六个基准对其评估,以进行比较。文章利用实验的速度和精度结果进一步分析了不同框架的优缺点。

  长时跟踪的前瞻性讨论。本文从算法设计和基准构建的角度讨论了长时跟踪的潜在方向,这可能为研究人员提供一些指导。

  本文其余部分组织如下。第二部分介绍了短时跟踪的发展以及之前关于长时跟踪的相关总结性工作。第三部分详细分析了现有长时跟踪器的类别。第四部分介绍了包含相应评估协议在内的长时跟踪基准,还分析了其与短时跟踪基准的比较。第五部分报告了代表性长时跟踪器在几个基准上的实验结果。最后,第六部分讨论了长时跟踪的进一步发展方向,第七部分是本文总结。

  全文下载

  Long-term Visual Tracking: Review and Experimental Comparison

  Chang Liu, Xiao-Fan Chen, Chun-Juan Bo, Dong Wang

  https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1344-1

  https://link.springer.com/article/10.1007/s11633-022-1344-1

  【本文作者】