人工智能深度学习计算机视觉目标跟踪【ICCV2023】MOT论文阅读笔记：MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking

ai人工智能写作资讯 2024-03-29 3 0

文章目录

论文概述背景目的创新点文献综述

方法溺框架Detection DecoderLong-Term MemoryTemporal Interaction ModuleAdaptive Aggregation for Temporal EnhancementGenerate Track Embedding

结论

本文仅作个人学习使用论文地址：MeMOTR 项目地址：MeMOTR 参考：[ICCV 2023] MeMOTR：长时记忆力增强的Transformer 多目标跟踪器 - 知乎 (zhihu.com)

论文概述

背景

大多数现有的 MOT 方法只利用相邻帧之间的对象特征，而缺乏对长期时间信息建模的能力。行人跟踪数据集（如 MOT17）的运动模式几乎是线性的，因此在目标关联方面没有足够的挑战。在一些复杂的场景中，如集体舞者和体育运动员，将目标联系起来成为一项关键挑战。这些相似的外观和不稳定的运动可能会导致现有方法失败。

目的

对于每一个目标的 track query 来说，其应该具有如下良好的特性：

同一个 ID 所对应的 track query 随时间的变化应该尽可能平滑，因为对于视频中的目标来说，他们在帧与帧之间的变化往往是缓慢细微的、不易突变的。不同 ID 所对应的 track query 应该尽可能可区分，这样有利于在后续帧中对不同目标进行更好的定位，减少 ID 错误的情况。目的：更智能地利用时间信息，为跟踪器提供更有效和鲁棒的每个跟踪目标表示，从而缓解上述问题并提高跟踪性能。

创新点

leverage temporal information by proposing a long-term Memory-augmented Multi-Object Tracking method with TRansformer, coined as MeMOTR. 将长时记忆（Long-Term Memory）注入到 track query 中，以获取更加稳定的特征表示。构建了 Memory-Attention Layer，利用 self-attention 使不同 ID 的目标之间进行响应，从而获取更加可区分的特征表示。将第一层 DETR Decoder 作为 detection only 模式，使其与来自上一帧的 track query 尽可能对齐，从而减少特征不对齐所产生的负面影响。

文献综述

Tracking-by-Detection Tracking-by-Query 通常不需要额外的后处理来关联检测结果。而是应用跟踪查询来逐步解码被跟踪对象的位置。然而，基于查询的方法通常利用相邻帧的信息。尽管跟踪查询可以随着时间的推移不断更新，但大多数方法仍然没有明确利用较长的时间信息。

方法

在现有的 Transformer-based 多目标跟踪框架中，detect query 和 track query 被同时输入到 DETR Decoder 中，进行六层的连续解码，得到最终目标的 bounding box 和 classification。

DETR 中的 detect query 扮演了一个类似于可学习 anchor 的角色，它往往不具备丰富的语义信息；但是 track query 是来自于上一帧的 DETR Decoder 的输出，其具有用于表示该目标的丰富语义信息。因此从直觉上来说，将这两者同时输入到一个模块中，由于两者的语义信息无法对齐，因此很可能引起冲突，从而对网络带来负面影响。

溺框架

Detection Decoder

将 DETR Decoder 划分成为两部分：第一层命名为 Detection Decoder，只输入可学习的 detect query，输出包含了语义信息的 detect query，并且与来自上一帧的 track query 一同输入到后续五层的 Joint Decoder 中进行同步解码，以减少语义不对齐带来的影响。为了加以区分，我们将没有携带语义信息的可学习目标检测 query 称为 detect query（记作

Q_{det}

Qdet），将经过第一层 Decoder 之后携带了语义信息的对应输出称为 detect embedding，记作

E^t_{det}

Edett，同时，将来自上一帧的 track query 称作 track embedding 以对齐，记作

E^t_{tck}

Etckt。

Long-Term Memory

每当一个新目标产生的时候，我们利用它本身的特征向量创建一个对应的长时记忆向量

M^t_{tck}

Mtckt。由于目标会随着时间逐渐发生外观上的转变，因此我们需要不断更新这个长时记忆向量。我们认为目标在连续帧之间的改变往往是平滑的，因此我们采用了指数衰减移动平均数（running average with exponentially decaying weights）来更新这一向量，如下式所示：

(

−

)

⋅

M_{tck}^{t+1}=(1−λ) M_{tck}^t+λ⋅O_{tck}^t

Mtckt+1=(1−λ)Mtckt+λ⋅Otckt 在实现中，

\lambda

λ 设定在一个非常小的数值（0.01），这样可以保证相邻帧同一个目标的长时记忆向量只发生轻微的改变，从而确保其随着时间进行平滑稳定的更新而不易发生突变。

Temporal Interaction Module

Adaptive Aggregation for Temporal Enhancement

将当前帧与前一帧的输出向量动态结合，输出融合后的特征。这种利用相邻帧进行增强的方式在视频理解中较为常见，在 MOT 领域，例如 MOTR、TrackFormer 中都有类似的做法，它可以有效的增强对视频中物体的表示，并且获得更加鲁棒的特征。

Generate Track Embedding

由于同一帧中有多个相似的对象，学习更多的判别表征对跟踪器也至关重要。因此，采用一种称为记忆-注意层 (memoryattention layer)的多头注意力结构来实现不同轨迹之间的这种相互作用。并且对于每个目标经过 Memory-Attention Layer 之后输出的向量，我们通过简单的加法向其中注入对应目标的长时记忆向量。

结论

在 DanceTrack 上达到 SOTA，但在 MOT 17 上比不过传统的 Tracking-by-Detection 方法。在这篇文章提出了一个使用长时记忆向量增强的 query-based 多目标跟踪器，将更长的时序信息注入到跟踪过程中，从而显著提升了多目标跟踪的性能。

好文推荐

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

论文阅读笔记 transformer 人工智能深度学习计算机视觉目标跟踪

本文由用户于 2024-03-29 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18697610.html

金钥匙

人工智能深度学习计算机视觉目标跟踪【ICCV2023】MOT论文阅读笔记：MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking

人工智能计算机视觉深度学习 python 神经网络 cnn 【论文阅读】从经典网络结构理解图像分类模型的发展（二）——VGGNet

论文阅读深度学习论文笔记——FasterNet

发表评论取消回复

金钥匙

人工智能 深度学习 计算机视觉 目标跟踪 【ICCV2023】MOT论文阅读笔记：MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking

人工智能 计算机视觉 深度学习 python 神经网络 cnn 【论文阅读】从经典网络结构理解图像分类模型的发展（二）——VGGNet

论文阅读 深度学习 论文笔记——FasterNet

相关文章

发表评论取消回复

人工智能深度学习计算机视觉目标跟踪【ICCV2023】MOT论文阅读笔记：MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking

人工智能计算机视觉深度学习 python 神经网络 cnn 【论文阅读】从经典网络结构理解图像分类模型的发展（二）——VGGNet

论文阅读深度学习论文笔记——FasterNet