论文:SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection arXiv: 2505.23214v1 | 2025.05.29 作者:Wenhao Xu, Shuchen Zheng, Changwei Wang et al.
一句话总结
SAMamba 将 SAM2 的分层视觉特征提取与 Mamba 的线性复杂度的长程依赖建模相结合,配合三个精心设计的适配模块,在红外小目标检测(ISTD)三大基准数据集上刷新了 SOTA。
背景:红外小目标检测为什么难?

红外小目标检测在军事防御、海面监控、早期预警等长程感知系统中至关重要,但长期面临两大根本性困难:
- 目标极小:目标通常只占图像面积的 < 0.15%,甚至不足 0.01%,几乎淹没在像素里
- 信杂比低:目标与复杂背景之间的热信号特征极为相似,难以区分
传统方法(滤波法、人类视觉系统法、低秩分解法)在简单场景下有效,但面对真实复杂背景时泛化能力有限。深度学习方法虽然进步明显,但 CNN 本身存在两大瓶颈:
- 多次下采样导致小目标空间信息丢失
- 卷积局部感受野难以建模长程依赖
近年来,SAM2 和 Vision Mamba 的出现为解决这些问题提供了新的建筑学基础,但直接将它们迁移到红外领域面临两个挑战:领域差异和红外小目标的特殊分布特点。
SAMamba 核心思路

输入图像首先通过 Hiera Block(由冻结的 Encoder Block 和可训练的 FS-Adapter 组成)进行分层特征提取。在每个编码器阶段,提取的特征会通过 CSI 模块进行长距离上下文建模。解码器逐步上采样特征,并在每个阶段使用 DPCF 模块将上采样的特征与经过 CSI 处理的跳跃连接特征进行细节保留的融合。最终,通过一个分割头输出预测的红外小目标掩码(H × W × 1)。
SAMamba 的核心洞察是:高效的小目标检测需要三种互补能力——强 domain adaptation、高效全局上下文建模、多尺度信息保持。
围绕这三个方向,论文设计了三个创新模块:
| 模块 | 全称 | 核心作用 |
|---|---|---|
| FS-Adapter | Feature Selection Adapter | 桥接自然图像→红外图像的领域差异,选择与任务相关的 token |
| CSI | Cross-Channel State-Space Interaction | 用 Mamba 的选择性状态空间建模,在线性复杂度下捕获长程依赖 |
| DPCF | Detail-Preserving Contextual Fusion | 自适应融合多尺度特征,用门控机制在高分辨率细节和低分辨率语义之间做平衡 |
三大模块详解
1. FS-Adapter:参数高效的 Domain Adaptation
FS-Adapter 采用了双阶段选择机制:
Token 级别选择:引入一个可学习的任务嵌入 ξ(编码 ISTD 相关的特征重要性),计算每个 token 与 ξ 的余弦相似度,然后对 token 做重加权:
1ˆti = ti · sim(ti, ξ) = ti · max(0, (ti^T ξ) / (||ti||·||ξ||))简单理解:sim(ti, ξ) 衡量的是这个 token 与”什么是红外小目标”这个任务的相关程度。用这个相似度去加权 token,就把原本均匀的信息”过滤”了一遍——与任务越相关的 token 权重越大,反之被稀释。
加权后的特征再通过一个通道混合器 P ∈ R^{C×C} 做跨通道信息交互,最后通过残差连接(+ Ft)加回原始输入。残差连接是关键:它保证模型在 FS-Adapter 改造特征的同时,不会丢失在 SAM2 预训练阶段学到的通用视觉知识。
整个 FS-Adapter 配合冻结的 SAM2 Hiera 骨干,实现了参数高效微调(PEFT)——不需要重训整个大模型,只需微调少量适配器参数即可完成领域迁移。
2. CSI 模块:Cross-Channel State-Space Interaction

CSI 负责在 Skip Connection 中建模全局上下文,同时维持线性计算复杂度。
核心做法是:将特征沿通道维度分成 4 段,每段并行经过一个 Vision Mamba (Vim) block:
1mi = MLP(LN(Mamba(m′i))) + γ·m′i然后做跨通道重组(cross-channel segmentation & recombination),再通过 CBAM 式的 channel + spatial attention 做特征精炼,强调目标相关通道和空间位置,抑制背景噪声。
处理流程分四步:
- 输入处理:特征图先经过 1×1 卷积通道对齐,然后展平为序列,并沿通道维度分成 4 段
- Vision Mamba 并行处理:每段独立经过一个 VIM block(含 Mamba 层 + LayerNorm + MLP + 带缩放因子 γ 的残差连接),有效避免通道数增长导致的参数爆炸
- 跨通道重组:将不同 Mamba 头的输出按通道索引重新分组拼接,增强特征互补性
- 注意力精炼:通过 1×1 卷积 + BatchNorm + SiLU 融合通道信息,再依次施加通道注意力和空间注意力(类似 CBAM),强化目标相关区域
3. DPCF 模块:Detail-Preserving Contextual Fusion

在 Decoder 的每个上采样阶段,CSI 增强的 Skip Connection 特征与上采样后的深层特征需要融合。直接相加或拼接都会稀释小目标信息——这是小目标检测里的经典痛点。
DPCF 的做法是:沿通道维度将特征分成 4 段,每段引入一个可学习的空间门控权重 β:
1β = sigmoid(α) ∈ [0,1]2o′i = β ⊙ li + (1 - β) ⊙ hi这使得网络在每个空间位置、每个通道组上都能自适应地决定:优先保留高分辨率细节(β → 0)还是融合低分辨率语义(β → 1)。
融合后的 4 段拼接,并通过 3×3 卷积块精炼:
1F′o = [o′1, o′2, o′3, o′4]2Fo = δ(B(Conv(F′o)))消融实验也验证了这种自适应融合策略(81.08% IoU)显著优于简单的加法融合(78.61%)和拼接融合(79.12%),说明为不同空间位置学习不同的融合权重确实有价值。
实验结果
数据集
- NUAA-SIRST:427 张真实红外图,目标占 < 0.1%
- IRSTD-1k:1001 张,涵盖海面、城市、自然等多种场景
- NUDT-SIRST:1327 张合成图,96% 目标 < 0.15%,27% 极小目标(< 0.01%)

主要结果

| 数据集 | IoU | nIoU | F1 |
|---|---|---|---|
| NUAA-SIRST | 81.08% | 79.17% | 89.55% |
| IRSTD-1k | 73.53% | 68.99% | 84.75% |
| NUDT-SIRST | 93.13% | 93.15% | 96.44% |
相比之前的 SOTA 方法有显著提升,尤其在极小目标和复杂背景的场景下优势明显。
消融实验(NUAA-SIRST)

逐步添加各模块的 IoU 变化:
- Baseline U-Net:71.20%
-
- Hiera 编码器:+4.23% → 75.43%
-
- FS-Adapter:+0.89% → 76.32%
-
- CSI:+2.47% → 78.79%
-
- DPCF:+2.28% → 81.08%
每个模块都有稳定且可观的贡献。其中 CSI 模块的增益最大(+2.47%),说明全局上下文建模对区分小目标和复杂背景至关重要;FS-Adapter 虽然贡献相对较小(+0.89%),但在有限训练数据下有效解决了领域迁移问题,属于”四两拨千斤”的设计。
计算效率
SAMamba(Hiera-S, CSI c=128):37.18M 参数,493.82 GFLOPs,6.39 FPS(RTX 3090)。
虽然比轻量方法(ACM 44.49 FPS)慢,但精度远超;与同类精度的方法(ISNet 7.14 FPS、HCFNet 7.46 FPS)速度相当,但参数量更少。
局限性与未来方向
论文坦诚地指出了两个局限性:
- 极复杂背景(密集云边缘、复杂地物纹理):目标与杂波的局部统计特征相似,即使有全局建模也难以区分
- 极低信杂比:目标几乎融于均匀背景,属于物理上的检测极限
未来方向包括:利用视频时序信息提升鲁棒性、多模态融合等。
总结
SAMamba 是一篇非常扎实的论文,它没有简单地套用现成大模型,而是针对红外小目标检测的具体问题做了精准的适配改造:
- 用 FS-Adapter 解决领域迁移
- 用 CSI 在线性复杂度下建模全局上下文
- 用 DPCF 保证多尺度融合中小目标信息不被稀释
三个模块各司其职又相互协同,加上充分利用了 SAM2 的分层多尺度特征和 Mamba 的高效长程建模,设计思路清晰,实验充分。唯一需要关注的是计算资源需求——需要 SAM2 的预训练骨干,对硬件有一定要求。
如果你在做红外目标检测、遥感小目标检测、或者对 Mamba 在视觉任务中的应用感兴趣,这篇论文值得仔细读。
论文链接:https://arxiv.org/pdf/2505.23214 代码链接:https://github.com/zhengshuchen/SAMamba
Some information may be outdated