SETR:基于Transformer的语义分割新视角

作者:da吃一鲸8862024.08.15 03:06浏览量:73

简介:本文介绍了CVPR2021上提出的SETR模型,该模型通过将语义分割视为序列到序列的预测任务,采用纯Transformer作为编码器,重新定义了语义分割的模型设计,实现了在多个基准数据集上的卓越表现。

SETR:基于Transformer的语义分割新视角

引言

在计算机视觉领域,语义分割是一项重要的任务,旨在将图像中的每个像素分类为预定义的类别。随着深度学习的发展,全卷积网络(FCN)及其编码器-解码器架构已成为语义分割的主流方法。然而,这些方法在建模长距离依赖关系方面存在局限。近期,Transformer在自然语言处理领域的成功,启发我们将其应用于图像分割任务,从而诞生了SETR(SEgmentation TRansformer)模型。

SETR模型概述

SETR模型的核心思想是将语义分割视为序列到序列的预测任务,采用纯Transformer作为编码器,结合多种解码器设计,实现了对图像的全局上下文建模,进而提升分割性能。

编码器设计

SETR的编码器部分摒弃了传统的卷积层堆叠结构,转而采用纯Transformer架构。具体地,编码器首先将输入图像分解为固定大小的补丁(patch)网格,每个补丁通过线性嵌入层转换为特征向量,形成一系列的补丁嵌入向量。然后,这些向量被输入到Transformer中,通过多层多头自注意力(MSA)和多层感知机(MLP)块进行特征表示学习。由于Transformer的每一层都不进行空间分辨率的下采样,因此能够全局建模图像上下文,为语义分割提供了全新的视角。

解码器设计

为了评估编码器部分的特征表示,SETR论文设计了三种不同的解码器方式,并选择了其中效果最好的解码器与Transformer编码器组合成最终的SETR模型。

  1. Naive Upsampling(Naive):采用简单的两层网络(1×1卷积+BatchNorm+ReLU+1×1卷积)将编码器输出的特征映射到类别空间,然后通过双线性上采样恢复到原始图像分辨率。

  2. Progressive Upsampling(PUP):采用渐进式上采样策略,交替使用卷积层和上采样操作,逐步将特征图的分辨率提升至原始图像大小。这种方法有助于减少一步上采样可能引入的噪声。

  3. Multi-Level Feature Aggregation(MLA):采用多级特征聚合策略,将来自不同Transformer层的特征表示作为输入,通过多流网络进行特征融合,最后通过上采样恢复图像分辨率。这种方法能够充分利用Transformer各层的特征信息,提升分割性能。

实验结果与分析

SETR模型在多个基准数据集上取得了卓越的表现,包括ADE20K、Pascal Context和Cityscapes等。特别是在ADE20K测试服务器上,SETR模型在提交当天就获得了第一名,证明了其强大的分割能力。

应用与前景

SETR模型的成功不仅在于其创新的模型设计,更在于其将Transformer的序列建模能力应用于图像分割任务的实践。这一尝试为未来的语义分割研究提供了新的思路。随着Transformer在视觉领域的不断发展和完善,我们有理由相信,基于Transformer的语义分割模型将在更多复杂场景中展现出其独特的优势。

结论

本文介绍了CVPR2021上提出的SETR模型,该模型通过将语义分割视为序列到序列的预测任务,采用纯Transformer作为编码器,结合多种解码器设计,实现了对图像的全局上下文建模,进而提升了分割性能。SETR模型的成功为语义分割领域的研究提供了新的视角和思路,也为未来的研究提供了宝贵的经验和启示。


通过本文的介绍,希望读者能够对SETR模型有一个清晰的认识,并了解到其在语义分割任务中的卓越表现。同时,也期待更多的研究者能够在此基础上进行进一步的探索和创新,推动语义分割领域的发展。