目标检测人工智能计算机视觉 transformer 自动驾驶智慧城市 llama 51-23 BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection 论文精读

BEVDet是基于LSS的自底向上建立BEV的方法，今天要读的BEVdet4D这篇论文，把BEVDet的3D研究范式提升到时空4D空间中。

首先咱们简要回顾一下BEVDet框架。

如上图所示，BEVDet由四个模块组成：

1）Image-view Encoder，包括一个主干和一个颈部，用于环视图像特征提取。

主干模型选择：ResNet，SwinTransformer，DenseNet，HRNet

颈部模型选择：FPN、FPN-LSS

2）View Transformer，利用了LSS中的深度估计算法，将图像特征映射到BEV坐标。

把基于图像视图的特征当做输入，先对图像进行升维构造视锥，预测图像的深度。然后基于预测的图像深度和图像特征生成点云，最后在竖直方向上pooling得到BEV特征。

3）BEV Encoder，类似第一步图像视图编码Image-

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

本文由用户于 2024-03-21 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18665354.html

金钥匙