Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model论文阅读

文章目录

Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model论文阅读相关资料Abstract摘要SAM优缺点作者动机Prompt设置消融实验结果展示

相关资料

Segment Anything Model(SAM)论文 Segment Anything Model(SAM)模型解读及代码复现 Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model论文

Abstract

The success of the Segment Anything Model (SAM) demonstrates the significance of data-centric machine learning. However, due to the difficulties and high costs associated with annotating Remote Sensing (RS) images, a large amount of valuable RS data remains unlabeled, particularly at the pixel level. In this study, we leverage SAM and existing RS object detection datasets to develop an efficient pipeline for generating a large-scale RS segmentation dataset, dubbed SAMRS. SAMRS surpasses existing highresolution RS segmentation datasets in size by several orders of magnitude, and provides object category, location, and instance information that can be used for semantic segmentation, instance segmentation, and object detection, either individually or in combination. We also provide a comprehensive analysis of SAMRS from various aspects. We hope it could facilitate research in RS segmentation, particularly in large model pre-training. The code and dataset will be available at SAMRS1.

摘要

SAM(Segment Anything Model)的成功表明了以数据为中心的机器学习的重要性。然而,由于遥感(RS)图像注释的困难和高成本,大量有价值的RS数据仍然没有被标记,特别是在像素级。在这项研究中,我们利用SAM和现有的RS物体检测数据集,开发了一个高效的管道来生成大规模的RS分割数据集,称为SAMRS。SAMRS在规模上超过了现有的高分辨率RS分割数据集几个数量级,并提供了物体类别、位置和实例信息,可用于语义分割、实例分割和物体检测,无论是单独还是组合。我们还从各方面对SAMRS进行了全面的分析。我们希望它能促进RS分割的研究,特别是大型模型的预训练。代码和数据集将在SAMRS1上提供(暂时并未公布)。

SAM优缺点

优点

SAM可以准确地捕捉物体的位置和轮廓(即以掩模的形式),从而区分前景中的各种物体和背景SAM具有令人印象深刻的zero-shot分割能力,即使应用于特殊场景,如显微镜拍摄的细胞图像和医学图像,也表现出高性能即使使用感知不同波段(如红外和微波)或不同分辨率(如机载或卫星图像)的传感器获得图像,SAM也能很好地识别遥感图像中的不同目标

缺点

并不能检测全部区域掩码中并不包含类别信息,SAM只是做分割,而不是语义分割

作者动机

#mermaid-svg-f9EibyBec3qgiDls {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-f9EibyBec3qgiDls .error-icon{fill:#552222;}#mermaid-svg-f9EibyBec3qgiDls .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-f9EibyBec3qgiDls .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-f9EibyBec3qgiDls .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-f9EibyBec3qgiDls .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-f9EibyBec3qgiDls .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-f9EibyBec3qgiDls .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-f9EibyBec3qgiDls .marker{fill:#333333;stroke:#333333;}#mermaid-svg-f9EibyBec3qgiDls .marker.cross{stroke:#333333;}#mermaid-svg-f9EibyBec3qgiDls svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-f9EibyBec3qgiDls .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-f9EibyBec3qgiDls .cluster-label text{fill:#333;}#mermaid-svg-f9EibyBec3qgiDls .cluster-label span{color:#333;}#mermaid-svg-f9EibyBec3qgiDls .label text,#mermaid-svg-f9EibyBec3qgiDls span{fill:#333;color:#333;}#mermaid-svg-f9EibyBec3qgiDls .node rect,#mermaid-svg-f9EibyBec3qgiDls .node circle,#mermaid-svg-f9EibyBec3qgiDls .node ellipse,#mermaid-svg-f9EibyBec3qgiDls .node polygon,#mermaid-svg-f9EibyBec3qgiDls .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-f9EibyBec3qgiDls .node .label{text-align:center;}#mermaid-svg-f9EibyBec3qgiDls .node.clickable{cursor:pointer;}#mermaid-svg-f9EibyBec3qgiDls .arrowheadPath{fill:#333333;}#mermaid-svg-f9EibyBec3qgiDls .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-f9EibyBec3qgiDls .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-f9EibyBec3qgiDls .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-f9EibyBec3qgiDls .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-f9EibyBec3qgiDls .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-f9EibyBec3qgiDls .cluster text{fill:#333;}#mermaid-svg-f9EibyBec3qgiDls .cluster span{color:#333;}#mermaid-svg-f9EibyBec3qgiDls div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-f9EibyBec3qgiDls :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

实际的RS识别任务需要图像中的类别信息

SAM识别出的区域并不包含语义类别信息

RS目标检测数据集中的注释,其中包括类别和边界框信息

使用RS目标检测数据中的边界框或者其他数据作为SAM的prompt进行分割

获得带有语义类别信息的分割结果

Prompt设置

框标记(box prompt) 由于RSI是从头顶角度捕获的,因此其中的对象可以具有任意方向,而不像自然图像对象通常由于重力而向上定向。因此,除了通常的水平边界框(H-Box)外,我们还考虑定向边界框或旋转边界框(R-Box)作为框提示。但是,SAM不直接支持R-Box提示。为了解决这个问题,我们使用R-Box的最小限定水平矩形,表示为RH-Box。 点标记(point prompt) 由于各种RS对象(如飞机)的形状复杂,我们采取了谨慎的方法,只考虑中心点作为前景 掩码标记(mask prompt) 我们将对应框包围的区域定义为掩码提示符 目标检测中的标记框分为水平边界框(H-Box)和定向边界框或旋转边界框(R-Box),因此对应框内的掩码标记也包含两种

消融实验

点标记效果并不好,可能是因为前景点数量不足,不能有效引导模型掩码标记相对于点标记效果较好,但是单独使用也不能生成高质量的分割结果,但如果和其他框标记结合使用也会对框标记的分割结果产生负面影响当单独采用H-Box提示时,相比于点和掩码提示,我们获得了最高的准确性。对于使用R-Box注释的情况,RH-Box提示符也达到了令人满意的性能

结论 如果一个RS目标检测数据集只有R-Box注释,那么应该使用RH-Box提示;否则采用H-Box提示。

结果展示

推荐文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: