论文精读 | SAMamba：Mamba + SAM2，能否成为红外小目标检测新范式？

论文：SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection arXiv: 2505.23214v1 | 2025.05.29 作者：Wenhao Xu, Shuchen Zheng, Changwei Wang et al.

一句话总结

SAMamba 将 SAM2 的分层视觉特征提取与 Mamba 的线性复杂度的长程依赖建模相结合，配合三个精心设计的适配模块，在红外小目标检测（ISTD）三大基准数据集上刷新了 SOTA。

背景：红外小目标检测为什么难？

图1：红外小目标检测的两大核心挑战

红外小目标检测在军事防御、海面监控、早期预警等长程感知系统中至关重要，但长期面临两大根本性困难：

目标极小：目标通常只占图像面积的 < 0.15%，甚至不足 0.01%，几乎淹没在像素里
信杂比低：目标与复杂背景之间的热信号特征极为相似，难以区分

传统方法（滤波法、人类视觉系统法、低秩分解法）在简单场景下有效，但面对真实复杂背景时泛化能力有限。深度学习方法虽然进步明显，但 CNN 本身存在两大瓶颈：

多次下采样导致小目标空间信息丢失
卷积局部感受野难以建模长程依赖

近年来，SAM2 和 Vision Mamba 的出现为解决这些问题提供了新的建筑学基础，但直接将它们迁移到红外领域面临两个挑战：领域差异和红外小目标的特殊分布特点。

SAMamba 核心思路

图2：SAMamba 整体架构

输入图像首先通过 Hiera Block（由冻结的 Encoder Block 和可训练的 FS-Adapter 组成）进行分层特征提取。在每个编码器阶段，提取的特征会通过 CSI 模块进行长距离上下文建模。解码器逐步上采样特征，并在每个阶段使用 DPCF 模块将上采样的特征与经过 CSI 处理的跳跃连接特征进行细节保留的融合。最终，通过一个分割头输出预测的红外小目标掩码（H × W × 1）。

SAMamba 的核心洞察是：高效的小目标检测需要三种互补能力——强 domain adaptation、高效全局上下文建模、多尺度信息保持。

围绕这三个方向，论文设计了三个创新模块：

模块	全称	核心作用
FS-Adapter	Feature Selection Adapter	桥接自然图像→红外图像的领域差异，选择与任务相关的 token
CSI	Cross-Channel State-Space Interaction	用 Mamba 的选择性状态空间建模，在线性复杂度下捕获长程依赖
DPCF	Detail-Preserving Contextual Fusion	自适应融合多尺度特征，用门控机制在高分辨率细节和低分辨率语义之间做平衡

三大模块详解

1. FS-Adapter：参数高效的 Domain Adaptation

FS-Adapter 采用了双阶段选择机制：

Token 级别选择：引入一个可学习的任务嵌入 ξ（编码 ISTD 相关的特征重要性），计算每个 token 与 ξ 的余弦相似度，然后对 token 做重加权：

1
ˆti = ti · sim(ti, ξ) = ti · max(0, (ti^T ξ) / (||ti||·||ξ||))

简单理解：sim(ti, ξ) 衡量的是这个 token 与”什么是红外小目标”这个任务的相关程度。用这个相似度去加权 token，就把原本均匀的信息”过滤”了一遍——与任务越相关的 token 权重越大，反之被稀释。

加权后的特征再通过一个通道混合器 P ∈ R^{C×C} 做跨通道信息交互，最后通过残差连接（+ Ft）加回原始输入。残差连接是关键：它保证模型在 FS-Adapter 改造特征的同时，不会丢失在 SAM2 预训练阶段学到的通用视觉知识。

整个 FS-Adapter 配合冻结的 SAM2 Hiera 骨干，实现了参数高效微调（PEFT）——不需要重训整个大模型，只需微调少量适配器参数即可完成领域迁移。

2. CSI 模块：Cross-Channel State-Space Interaction

图3：CSI 模块架构

CSI 负责在 Skip Connection 中建模全局上下文，同时维持线性计算复杂度。

核心做法是：将特征沿通道维度分成 4 段，每段并行经过一个 Vision Mamba (Vim) block：

1
mi = MLP(LN(Mamba(m′i))) + γ·m′i

然后做跨通道重组（cross-channel segmentation & recombination），再通过 CBAM 式的 channel + spatial attention 做特征精炼，强调目标相关通道和空间位置，抑制背景噪声。

处理流程分四步：

输入处理：特征图先经过 1×1 卷积通道对齐，然后展平为序列，并沿通道维度分成 4 段
Vision Mamba 并行处理：每段独立经过一个 VIM block（含 Mamba 层 + LayerNorm + MLP + 带缩放因子 γ 的残差连接），有效避免通道数增长导致的参数爆炸
跨通道重组：将不同 Mamba 头的输出按通道索引重新分组拼接，增强特征互补性
注意力精炼：通过 1×1 卷积 + BatchNorm + SiLU 融合通道信息，再依次施加通道注意力和空间注意力（类似 CBAM），强化目标相关区域

3. DPCF 模块：Detail-Preserving Contextual Fusion

图4：DPCF 模块架构

在 Decoder 的每个上采样阶段，CSI 增强的 Skip Connection 特征与上采样后的深层特征需要融合。直接相加或拼接都会稀释小目标信息——这是小目标检测里的经典痛点。

DPCF 的做法是：沿通道维度将特征分成 4 段，每段引入一个可学习的空间门控权重 β：

1
β = sigmoid(α)  ∈ [0,1]
2
o′i = β ⊙ li + (1 - β) ⊙ hi

这使得网络在每个空间位置、每个通道组上都能自适应地决定：优先保留高分辨率细节（β → 0）还是融合低分辨率语义（β → 1）。

融合后的 4 段拼接，并通过 3×3 卷积块精炼：

1
F′o = [o′1, o′2, o′3, o′4]
2
Fo = δ(B(Conv(F′o)))

消融实验也验证了这种自适应融合策略（81.08% IoU）显著优于简单的加法融合（78.61%）和拼接融合（79.12%），说明为不同空间位置学习不同的融合权重确实有价值。

实验结果

数据集

NUAA-SIRST：427 张真实红外图，目标占 < 0.1%
IRSTD-1k：1001 张，涵盖海面、城市、自然等多种场景
NUDT-SIRST：1327 张合成图，96% 目标 < 0.15%，27% 极小目标（< 0.01%）

图5：各方法在三个数据集上的可视化对比

主要结果

图6：各方法的定量指标对比

数据集	IoU	nIoU	F1
NUAA-SIRST	81.08%	79.17%	89.55%
IRSTD-1k	73.53%	68.99%	84.75%
NUDT-SIRST	93.13%	93.15%	96.44%

相比之前的 SOTA 方法有显著提升，尤其在极小目标和复杂背景的场景下优势明显。

消融实验（NUAA-SIRST）

图7：消融实验结果

逐步添加各模块的 IoU 变化：

Baseline U-Net：71.20%
- Hiera 编码器：+4.23% → 75.43%
- FS-Adapter：+0.89% → 76.32%
- CSI：+2.47% → 78.79%
- DPCF：+2.28% → 81.08%

每个模块都有稳定且可观的贡献。其中 CSI 模块的增益最大（+2.47%），说明全局上下文建模对区分小目标和复杂背景至关重要；FS-Adapter 虽然贡献相对较小（+0.89%），但在有限训练数据下有效解决了领域迁移问题，属于”四两拨千斤”的设计。

计算效率

SAMamba（Hiera-S, CSI c=128）：37.18M 参数，493.82 GFLOPs，6.39 FPS（RTX 3090）。

虽然比轻量方法（ACM 44.49 FPS）慢，但精度远超；与同类精度的方法（ISNet 7.14 FPS、HCFNet 7.46 FPS）速度相当，但参数量更少。

局限性与未来方向

论文坦诚地指出了两个局限性：

极复杂背景（密集云边缘、复杂地物纹理）：目标与杂波的局部统计特征相似，即使有全局建模也难以区分
极低信杂比：目标几乎融于均匀背景，属于物理上的检测极限

未来方向包括：利用视频时序信息提升鲁棒性、多模态融合等。

总结

SAMamba 是一篇非常扎实的论文，它没有简单地套用现成大模型，而是针对红外小目标检测的具体问题做了精准的适配改造：

用 FS-Adapter 解决领域迁移
用 CSI 在线性复杂度下建模全局上下文
用 DPCF 保证多尺度融合中小目标信息不被稀释

三个模块各司其职又相互协同，加上充分利用了 SAM2 的分层多尺度特征和 Mamba 的高效长程建模，设计思路清晰，实验充分。唯一需要关注的是计算资源需求——需要 SAM2 的预训练骨干，对硬件有一定要求。

如果你在做红外目标检测、遥感小目标检测、或者对 Mamba 在视觉任务中的应用感兴趣，这篇论文值得仔细读。

论文链接：https://arxiv.org/pdf/2505.23214 代码链接：https://github.com/zhengshuchen/SAMamba

swrited