LOADING
2179 words
11 minutes
论文精读 | SAMamba:Mamba + SAM2,能否成为红外小目标检测新范式?

论文:SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection arXiv: 2505.23214v1 | 2025.05.29 作者:Wenhao Xu, Shuchen Zheng, Changwei Wang et al.


一句话总结

SAMamba 将 SAM2 的分层视觉特征提取与 Mamba 的线性复杂度的长程依赖建模相结合,配合三个精心设计的适配模块,在红外小目标检测(ISTD)三大基准数据集上刷新了 SOTA。


背景:红外小目标检测为什么难?

图1:红外小目标检测的两大核心挑战

红外小目标检测在军事防御、海面监控、早期预警等长程感知系统中至关重要,但长期面临两大根本性困难:

  1. 目标极小:目标通常只占图像面积的 < 0.15%,甚至不足 0.01%,几乎淹没在像素里
  2. 信杂比低:目标与复杂背景之间的热信号特征极为相似,难以区分

传统方法(滤波法、人类视觉系统法、低秩分解法)在简单场景下有效,但面对真实复杂背景时泛化能力有限。深度学习方法虽然进步明显,但 CNN 本身存在两大瓶颈:

  • 多次下采样导致小目标空间信息丢失
  • 卷积局部感受野难以建模长程依赖

近年来,SAM2 和 Vision Mamba 的出现为解决这些问题提供了新的建筑学基础,但直接将它们迁移到红外领域面临两个挑战:领域差异红外小目标的特殊分布特点


SAMamba 核心思路

图2:SAMamba 整体架构

输入图像首先通过 Hiera Block(由冻结的 Encoder Block 和可训练的 FS-Adapter 组成)进行分层特征提取。在每个编码器阶段,提取的特征会通过 CSI 模块进行长距离上下文建模。解码器逐步上采样特征,并在每个阶段使用 DPCF 模块将上采样的特征与经过 CSI 处理的跳跃连接特征进行细节保留的融合。最终,通过一个分割头输出预测的红外小目标掩码(H × W × 1)。

SAMamba 的核心洞察是:高效的小目标检测需要三种互补能力——强 domain adaptation、高效全局上下文建模、多尺度信息保持

围绕这三个方向,论文设计了三个创新模块:

模块全称核心作用
FS-AdapterFeature Selection Adapter桥接自然图像→红外图像的领域差异,选择与任务相关的 token
CSICross-Channel State-Space Interaction用 Mamba 的选择性状态空间建模,在线性复杂度下捕获长程依赖
DPCFDetail-Preserving Contextual Fusion自适应融合多尺度特征,用门控机制在高分辨率细节和低分辨率语义之间做平衡

三大模块详解

1. FS-Adapter:参数高效的 Domain Adaptation

FS-Adapter 采用了双阶段选择机制

Token 级别选择:引入一个可学习的任务嵌入 ξ(编码 ISTD 相关的特征重要性),计算每个 token 与 ξ 的余弦相似度,然后对 token 做重加权:

ˆti = ti · sim(ti, ξ) = ti · max(0, (ti^T ξ) / (||ti||·||ξ||))

简单理解:sim(ti, ξ) 衡量的是这个 token 与”什么是红外小目标”这个任务的相关程度。用这个相似度去加权 token,就把原本均匀的信息”过滤”了一遍——与任务越相关的 token 权重越大,反之被稀释。

加权后的特征再通过一个通道混合器 P ∈ R^{C×C} 做跨通道信息交互,最后通过残差连接(+ Ft)加回原始输入。残差连接是关键:它保证模型在 FS-Adapter 改造特征的同时,不会丢失在 SAM2 预训练阶段学到的通用视觉知识。

整个 FS-Adapter 配合冻结的 SAM2 Hiera 骨干,实现了参数高效微调(PEFT)——不需要重训整个大模型,只需微调少量适配器参数即可完成领域迁移。

2. CSI 模块:Cross-Channel State-Space Interaction

图3:CSI 模块架构

CSI 负责在 Skip Connection 中建模全局上下文,同时维持线性计算复杂度。

核心做法是:将特征沿通道维度分成 4 段,每段并行经过一个 Vision Mamba (Vim) block

mi = MLP(LN(Mamba(m′i))) + γ·m′i

然后做跨通道重组(cross-channel segmentation & recombination),再通过 CBAM 式的 channel + spatial attention 做特征精炼,强调目标相关通道和空间位置,抑制背景噪声。

处理流程分四步

  1. 输入处理:特征图先经过 1×1 卷积通道对齐,然后展平为序列,并沿通道维度分成 4 段
  2. Vision Mamba 并行处理:每段独立经过一个 VIM block(含 Mamba 层 + LayerNorm + MLP + 带缩放因子 γ 的残差连接),有效避免通道数增长导致的参数爆炸
  3. 跨通道重组:将不同 Mamba 头的输出按通道索引重新分组拼接,增强特征互补性
  4. 注意力精炼:通过 1×1 卷积 + BatchNorm + SiLU 融合通道信息,再依次施加通道注意力和空间注意力(类似 CBAM),强化目标相关区域

3. DPCF 模块:Detail-Preserving Contextual Fusion

图4:DPCF 模块架构

在 Decoder 的每个上采样阶段,CSI 增强的 Skip Connection 特征与上采样后的深层特征需要融合。直接相加或拼接都会稀释小目标信息——这是小目标检测里的经典痛点。

DPCF 的做法是:沿通道维度将特征分成 4 段,每段引入一个可学习的空间门控权重 β

β = sigmoid(α) ∈ [0,1]
o′i = β ⊙ li + (1 - β) ⊙ hi

这使得网络在每个空间位置、每个通道组上都能自适应地决定:优先保留高分辨率细节(β → 0)还是融合低分辨率语义(β → 1)。

融合后的 4 段拼接,并通过 3×3 卷积块精炼:

F′o = [o′1, o′2, o′3, o′4]
Fo = δ(B(Conv(F′o)))

消融实验也验证了这种自适应融合策略(81.08% IoU)显著优于简单的加法融合(78.61%)和拼接融合(79.12%),说明为不同空间位置学习不同的融合权重确实有价值。


实验结果

数据集

  • NUAA-SIRST:427 张真实红外图,目标占 < 0.1%
  • IRSTD-1k:1001 张,涵盖海面、城市、自然等多种场景
  • NUDT-SIRST:1327 张合成图,96% 目标 < 0.15%,27% 极小目标(< 0.01%)

图5:各方法在三个数据集上的可视化对比

主要结果

图6:各方法的定量指标对比

数据集IoUnIoUF1
NUAA-SIRST81.08%79.17%89.55%
IRSTD-1k73.53%68.99%84.75%
NUDT-SIRST93.13%93.15%96.44%

相比之前的 SOTA 方法有显著提升,尤其在极小目标和复杂背景的场景下优势明显。

消融实验(NUAA-SIRST)

图7:消融实验结果

逐步添加各模块的 IoU 变化:

  • Baseline U-Net:71.20%
    • Hiera 编码器:+4.23% → 75.43%
    • FS-Adapter:+0.89% → 76.32%
    • CSI:+2.47% → 78.79%
    • DPCF:+2.28% → 81.08%

每个模块都有稳定且可观的贡献。其中 CSI 模块的增益最大(+2.47%),说明全局上下文建模对区分小目标和复杂背景至关重要;FS-Adapter 虽然贡献相对较小(+0.89%),但在有限训练数据下有效解决了领域迁移问题,属于”四两拨千斤”的设计。

计算效率

SAMamba(Hiera-S, CSI c=128):37.18M 参数,493.82 GFLOPs,6.39 FPS(RTX 3090)。

虽然比轻量方法(ACM 44.49 FPS)慢,但精度远超;与同类精度的方法(ISNet 7.14 FPS、HCFNet 7.46 FPS)速度相当,但参数量更少。


局限性与未来方向

论文坦诚地指出了两个局限性:

  1. 极复杂背景(密集云边缘、复杂地物纹理):目标与杂波的局部统计特征相似,即使有全局建模也难以区分
  2. 极低信杂比:目标几乎融于均匀背景,属于物理上的检测极限

未来方向包括:利用视频时序信息提升鲁棒性、多模态融合等。


总结

SAMamba 是一篇非常扎实的论文,它没有简单地套用现成大模型,而是针对红外小目标检测的具体问题做了精准的适配改造

  • FS-Adapter 解决领域迁移
  • CSI 在线性复杂度下建模全局上下文
  • DPCF 保证多尺度融合中小目标信息不被稀释

三个模块各司其职又相互协同,加上充分利用了 SAM2 的分层多尺度特征和 Mamba 的高效长程建模,设计思路清晰,实验充分。唯一需要关注的是计算资源需求——需要 SAM2 的预训练骨干,对硬件有一定要求。

如果你在做红外目标检测、遥感小目标检测、或者对 Mamba 在视觉任务中的应用感兴趣,这篇论文值得仔细读。


论文链接:https://arxiv.org/pdf/2505.23214 代码链接:https://github.com/zhengshuchen/SAMamba

论文精读 | SAMamba:Mamba + SAM2,能否成为红外小目标检测新范式?
/posts/samamba-paper-review/
Author
swrited
Published at
2026-05-19
License
CC BY-NC-SA 4.0

Some information may be outdated