人工智能【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（12 月 1 日论文合集）（下）

文章目录

1.10 A Survey on Deep Learning for Polyp Segmentation: Techniques, Challenges and Future Trends1.11 Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation1.12 MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation1.13 SimulFlow: Simultaneously Extracting Feature and Identifying Target for Unsupervised Video Object Segmentation1.14 ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction1.15 Guided Prompting in SAM for Weakly Supervised Cell Segmentation in Histopathological Images1.16 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation1.17 Quantification of cardiac capillarization in single-immunostained myocardial slices using weakly supervised instance segmentation

1.10 A Survey on Deep Learning for Polyp Segmentation: Techniques, Challenges and Future Trends

深度学习在息肉分割中的应用：技术、挑战和未来趋势

https://arxiv.org/abs/2311.18373

息肉的早期检测和评估在结直肠癌（CRC）的预防和治疗中发挥着至关重要的作用。息肉分割为协助临床医生准确定位和分割息肉区域提供了有效的解决方案。过去，人们经常依赖手动提取颜色、纹理和形状等较低级别的特征，这些特征通常在捕获全局上下文方面存在问题，并且缺乏对复杂场景的鲁棒性。随着深度学习的出现，越来越多基于深度学习网络的优秀医学图像分割算法涌现，使得该领域取得了重大进展。本文对息肉分割算法进行了全面的回顾。我们首先回顾一些基于手动提取特征和深度分割算法的传统算法，然后详细介绍与该主题相关的基准数据集。具体来说，我们根据息肉大小，考虑研究课题的痛点和网络结构的差异，对最新的深度学习模型和结果进行综合评估。最后，我们讨论了息肉分割的挑战以及该领域的未来趋势。我们收集的模型、基准数据集和源代码链接都发布在这个 https URL 上。

1.11 Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation

每幅测试图像都需要一个特定的提示：二维医学图像分割的连续测试时间自适应

https://arxiv.org/abs/2311.18363

从不同医疗中心获取的医学图像中广泛存在分布偏移，这对在实际应用中部署预训练的语义分割模型构成了重大障碍。测试时适应已证明其在解决推理过程中跨域分布变化方面的有效性。然而，大多数现有方法通过更新预训练模型来实现适应，使它们在遇到一系列分布变化时（即在连续测试时间适应设置下）容易受到错误积累和灾难性遗忘的影响。为了克服更新模型带来的这些挑战，在本文中，我们冻结了预训练的模型，并提出了基于视觉提示的测试时间适应（VPTTA）方法，为每个测试图像训练特定的提示，以对齐统计数据批量归一化层。具体来说，我们提出了低频提示，它是轻量级的，只有很少的参数，并且可以在单次迭代中有效地进行训练。为了增强提示初始化，我们为 VPTTA 配备了一个内存库，以便从以前的提示中受益于当前的提示。此外，我们设计了一种预热机制，混合源统计数据和目标统计数据来构建预热统计数据，从而促进训练过程。大量实验证明了我们的 VPTTA 在两个医学图像分割基准任务上优于其他最先进的方法。预训练源模型的代码和权重可从此 https URL 获取。

1.12 MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation

MRFP：在多分辨率特征扰动下从Sim-2-Real学习泛化语义分割

https://arxiv.org/abs/2311.18331

深度神经网络在源域的语义场景理解任务上表现出了示范性的性能，但由于训练过程中缺乏风格多样性，仅使用单个源域数据来增强看不见的目标域的性能仍然是一项具有挑战性的任务。生成模拟数据是检索大型风格多样的现实世界数据集的可行替代方案，因为这是一个繁琐且预算密集的过程。然而，模拟数据和真实数据之间特定领域的巨大不一致给语义分割带来了重大的泛化挑战。在这项工作中，为了缓解这个问题，我们提出了一种新颖的多分辨率特征扰动（MRFP）技术来随机化特定领域的细粒度特征和粗特征的扰动方式。我们在各种城市场景分割数据集上的实验结果清楚地表明，除了风格信息的扰动之外，精细特征组件的扰动对于学习语义分割模型的域不变鲁棒特征图至关重要。 MRFP 是一种简单且计算高效的可转移模块，无需额外的可学习参数或目标函数，可帮助最先进的深度神经网络学习鲁棒的域不变特征，以实现模拟到真实的语义分割。

1.13 SimulFlow: Simultaneously Extracting Feature and Identifying Target for Unsupervised Video Object Segmentation

SimulFlow：同时提取特征和识别目标的无监督视频对象分割

https://arxiv.org/abs/2311.18286

无监督视频对象分割（UVOS）旨在检测给定视频序列中的主要对象，无需任何人工干预。大多数现有方法依赖于双流架构，该架构分别对外观和运动信息进行编码，然后将它们融合以识别目标并生成对象掩模。然而，该管道的计算成本很高，并且由于难以正确融合两种模式而可能导致性能不佳。在本文中，我们提出了一种名为 SimulFlow 的新型 UVOS 模型，该模型可同时执行特征提取和目标识别，从而实现高效且有效的无监督视频对象分割。具体来说，我们设计了一种新颖的 SimulFlow Attention 机制，利用注意力操作的灵活性来连接图像和运动，其中每个阶段根据融合特征预测的粗掩模用于将注意力操作限制在掩模区域内并排除噪声的影响。由于SimulFlow Attention中视觉和光流特征之间的双向信息流，不需要额外的手工设计的融合模块，我们只采用光解码器来获得最终的预测。我们在几个基准数据集上评估我们的方法并取得最先进的结果。我们提出的方法不仅优于现有方法，而且还解决了双流架构引起的计算复杂性和融合困难。我们的模型在 DAVIS-16 上实现了 87.4% J & F，具有最高速度（3090 上为 63.7 FPS）和最低参数（13.7 M）。我们的 SimulFlow 还在视频显着目标检测数据集上获得了有竞争力的结果。

1.14 ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction

Alster：一种支持在线三维语义重建的局部时空专家

https://arxiv.org/abs/2311.18068

我们提出了一种在线 3D 语义分割方法，可以从 RGB-D 帧流中增量重建 3D 语义图。与离线方法不同，我们的方法直接适用于具有实时约束的场景，例如机器人或混合现实。为了克服在线方法固有的挑战，我们做出了两个主要贡献。首先，为了有效地从输入 RGB-D 视频流中提取信息，我们联合估计 3D 中每帧的几何和语义标签。我们方法的一个关键焦点是推理 2D 输入和本地 3D 域中的语义实体，以利用空间上下文和网络架构的差异。我们的方法使用现成的分割网络来预测 2D 特征。提取的 2D 特征通过轻量级 3D 网络进行细化，以实现局部 3D 结构的推理。其次，为了有效处理无限的输入 RGB-D 帧流，后续网络充当时间专家，通过以学习的方式利用 2D、3D 和过去的信息来预测增量场景更新。然后将这些更新集成到全局场景表示中。利用这些主要贡献，我们的方法可以实现具有实时约束的场景，并且可以通过仅在新测量定义的局部区域中处理和更新场景来扩展到任意场景大小。我们的实验表明，与纯粹在本地区域运行的现有在线方法相比，结果有所改善，并表明补充信息源可以提高性能。我们对不同架构和算法设计决策的好处进行了全面的消融研究。我们的方法在流行的 ScanNet 基准和 SceneNN 数据集上产生了有竞争力的结果。

1.15 Guided Prompting in SAM for Weakly Supervised Cell Segmentation in Histopathological Images

SAM中的引导提示用于组织病理图像中的弱监督细胞分割

https://arxiv.org/abs/2311.17960

组织病理学图像中的细胞分割在理解、诊断和治疗许多疾病中发挥着至关重要的作用。然而，为此进行数据注释是昂贵的，因为每个图像可能有大量细胞，并且需要专业病理学家来标记图像。相反，我们的论文侧重于使用弱监督（相关任务的注释）来诱导分段器。最近的基础模型，例如 Segment Anything (SAM)，可以使用提示在推理过程中利用额外的监督。 SAM 在自然图像分割任务中表现非常出色；然而，其在细胞分割中的适用性尚未得到探索。作为回应，我们研究了当只有边界框监督可用时指导 SAM 中弱监督细胞分割的提示程序。我们开发了两个工作流程：(1) 对象检测器的输出作为 SAM (D-SAM) 的测试时间提示，(2) SAM 作为训练数据上的伪掩模生成器来训练独立分割模型 (SAM-S)。在发现这两个工作流程具有一些互补的优势后，我们开发了一种基于整数编程的方法来协调两组分割掩码，从而实现更高的性能。我们对三个公开可用的细胞分割数据集（ConSep、MoNuSeg 和 TNBC）进行实验，发现所有基于 SAM 的解决方案都远远优于现有的弱监督图像分割模型，获得 9-15 pt Dice 增益。

1.16 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation

视觉和语言同步：双向令牌掩蔽自动编码器的参考图像分割

https://arxiv.org/abs/2311.17952

参考图像分割（RIS）旨在以像素级别分割场景内以自然语言表达的目标对象。最近的各种 RIS 模型通过生成上下文标记来对来自预训练编码器的多模态特征进行建模，并使用基于 Transformer 的跨模态注意力有效地融合它们，从而实现了最先进的性能。虽然这些方法将语言特征与图像特征相匹配以有效地识别可能的目标对象，但它们通常难以正确理解复杂且模糊的句子和场景中的上下文信息。为了解决这个问题，我们受到屏蔽自动编码器（MAE）的启发，提出了一种新颖的双向令牌屏蔽自动编码器（BTMAE）。所提出的模型通过在标记级别重建图像和语言特征中缺失的特征来学习图像到语言和语言到图像的上下文。换句话说，这种方法涉及图像和语言特征的相互补充，重点是使网络能够理解两种模式之间相互关联的深层上下文信息。这种学习方法增强了RIS在复杂句子和场景中表现的鲁棒性。我们的 BTMAE 在三个流行的数据集上实现了最先进的性能，并且我们通过各种消融研究证明了所提出方法的有效性。

1.17 Quantification of cardiac capillarization in single-immunostained myocardial slices using weakly supervised instance segmentation

基于弱监督实例分割的单一免疫染色心肌切片中心脏毛细血管的定量研究

https://arxiv.org/abs/2311.18173

据报道，心肌毛细血管密度降低是与各种心脏疾病相关的重要组织病理学特征。心脏毛细血管化的定量评估通常涉及心肌切片中心肌细胞 (CM) 和毛细血管的双重免疫染色。相比之下，基底膜成分的单一免疫染色是同时标记 CM 和毛细血管的直接方法，在背景染色中提出的挑战较少。然而，后续图像分析始终需要手动识别和分割 CM 和毛细血管。在这里，我们开发了一种图像分析工具 AutoQC，可以自动识别和分割 IV 型胶原蛋白（心肌内主要基底膜蛋白）的免疫荧光图像中的 CM 和毛细血管。此外，常用的毛细血管化相关测量可以从分割掩模中导出。 AutoQC 通过即时工程利用预训练分割模型的强大功能，采用弱监督实例分割算法。 AutoQC 在实例分割和毛细血管化评估方面均优于 YOLOv8-Seg（一种最先进的实例分割模型）。此外，AutoQC的训练只需要一个带有边界框注释的小数据集，而不是逐像素注释，从而减少了网络训练期间的工作量。 AutoQC 提供了一种自动化解决方案，用于量化基底膜免疫染色心肌切片中的心脏毛细血管化，一旦训练完毕，就无需进行手动图像分析。

参考文章

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

人工智能【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（12 月 1 日论文合集）（下）

javascript 前端 vue.js typescript vue3+element-plus+xlsx实现复杂表格导入导出功能

计算机视觉人工智能 opencv Autolabelimg自动标注工具

发表评论取消回复

金钥匙

人工智能 【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（12 月 1 日论文合集）（下）

javascript 前端 vue.js typescript vue3+element-plus+xlsx实现复杂表格导入导出功能

计算机视觉 人工智能 opencv Autolabelimg自动标注工具

相关文章

发表评论取消回复

人工智能【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（12 月 1 日论文合集）（下）

计算机视觉人工智能 opencv Autolabelimg自动标注工具