> 技术文档 > ArXiv 2507 | SWinMamba: Serpentine Window State Space Model for Vascular Segmentation

ArXiv 2507 | SWinMamba: Serpentine Window State Space Model for Vascular Segmentation

ArXiv 2507 | SWinMamba: Serpentine Window State Space Model for Vascular Segmentation

  • 论文链接:https://arxiv.org/abs/2507.01323

研究背景

血管分割在医学图像分析中至关重要,对疾病诊断和治疗具有重要意义。血管系统的拓扑结构是评估心血管疾病、糖尿病视网膜病变和肿瘤微环境的关键生物标志物。然而,医学图像中血管结构的复杂形态给准确分割带来了挑战。一方面,血管的纤细特性使其容易受到背景噪声和低对比度的影响,导致血管段中断和外围毛细血管缺失;另一方面,有效建模血管几何连续性(Vascular Geometric Continuity, VGC)仍然是一个未解决的挑战。VGC 指的是血管直径和方向沿血管结构的变化,为准确标注模糊段提供了重要的结构先验。尽管已有众多方法,但现有方法在获取完整且连通的血管结构方面仍存在不足。

ArXiv 2507 | SWinMamba: Serpentine Window State Space Model for Vascular Segmentation

研究动机

现有方法在血管分割任务中存在以下局限性:卷积方法由于感受野有限,难以捕捉血管直径和方向的连续结构;混合方法虽通过自注意力或图技术扩大了感受野,但仍面临计算负担重、难以聚焦纤细血管等挑战;现有方法将血管结构建模为孤立像素的集合,而非互连的管状段序列,限制了其提取相邻段之间序列依赖关系(包括 VGC)的能力。此外,现有的基于状态空间模型(SSM)的方法在医学图像分割中也存在一些问题,如如不高效的分词策略破坏了空间连贯性,刚性扫描忽略了血管拓扑结构,未能有效建模 VGC 等。针对这些挑战,论文提出了一种新的血管分割方法 SWinMamba,通过将蛇形窗口序列引入双向状态空间模型,创新性地对纤细血管结构的连续性进行建模。

ArXiv 2507 | SWinMamba: Serpentine Window State Space Model for Vascular Segmentation

研究内容

论文提出了 Serpentine Window Mamba(SWinMamba)模型,通过将蛇形窗口序列融入双向状态空间模型,创新性地对纤细血管结构的连续性进行建模,以实现准确的血管分割。具体包括以下三方面内容:

  • Serpentine Window Tokenizer(SWToken) :以蛇形方式使用重叠窗口序列自适应地分割输入图像,提供灵活的感受野(Receptive Fields, RFs),用于血管结构建模。具体来说,首先定位适应血管形态的蛇形锚点,然后基于可学习的偏移量动态确定剩余锚点的坐标,最后通过双线性插值在锚点周围密集采样,以捕获足够的几何信息。具体来说,SWToken 的工作原理如下:
    • Tortuous Structure Locating(扭曲结构定位):为了准确地将感受野聚焦于纤细且扭曲的血管结构上,SWToken 首先定位适应血管形态的蛇形锚点,这些锚点能够锚定局部血管段。这些锚点的坐标依赖于所在锚点连线的中心锚点的坐标,他们共同组成长度为 L = 9 L=9 L=9的点序列,即论文中的string。为了计算这些线上的锚点:
      • 先将输入的 H × W H \\times W H×W大小的特征图划分为 s × s , s = 8 s \\times s, s=8 s×s,s=8的窗口,将每个窗口的左上角设置为预定的中心锚点,锚点序号为 ⌊ L 2 ⌋ \\lfloor \\frac{L}{2} \\rfloor 2L
      • 基于设置的锚点数量 L = 9 L=9 L=9,对指定轴按照固定的扩展步长 α \\alpha α,来正向和负向分别偏移该轴向坐标 ⌊ L 2 ⌋ \\lfloor \\frac{L}{2} \\rfloor 2L次,对应而另一轴向坐标则通过累积的可学习偏移量来更新,从而整体可以适应血管的轮廓。这里描述了沿着x轴的扩展过程: { ( x c + i h , w , y c + i h , w ) = ( x c h , w + i α , y c h , w + ∑ k = c c + i Δ y k ) ( x c − i h , w , y c − i h , w ) = ( x c h , w − i α , y c h , w + ∑ k = c − i c Δ y k ) \\begin{cases} (x^{h,w}_{c+i}, y^{h,w}_{c+i}) & = (x^{h,w}_{c} + i\\alpha, y^{h,w}_{c} + \\sum^{c+i}_{k=c} \\Delta_{y_k}) \\\\ (x^{h,w}_{c-i}, y^{h,w}_{c-i}) & = (x^{h,w}_{c} - i\\alpha, y^{h,w}_{c} + \\sum^{c}_{k=c-i} \\Delta_{y_k}) \\end{cases} {(xc+ih,w,yc+ih,w)(xcih,w,ycih,w)=(xch,w+iα,ych,w+k=cc+iΔyk)=(xch,wiα,ych,w+k=cicΔyk)
    • Geometric Information Capturing(几何信息捕获):在定位了锚点序列之后,SWToken 在锚点周围密集采样,以捕获足够的几何信息。每个以锚点为左上角的 s × s s \\times s s×s 大小的窗口(四个顶点为浮点坐标)包含 s × s s \\times s s×s个浮点坐标位置,通过在原始特征网格上双线性插值确定其特征。
    • 最终从SWToken中,我们可以为 H W / s 2 HW/s^2 HW/s2个长度为 L L L的线条上每个锚点,分别采集自局部窗口的 s 2 s^2 s2个token。基于这样的设计,从输入特征图中采样出足够的几何信息。
  • Bidirectional Aggregation Module(BAM) :将双向聚合机制引入状态空间模型,整合连贯的局部特征,特别是 VGC,通过沿血管结构顺序扫描蛇形窗口来建模序列依赖关系。BAM 将 SWToken 生成的标记集进行序列化处理,利用 Mamba 模型在扫描各个序列时提取局部特征,并通过跨序列遍历整合其连续性。BAM 的工作原理如下:
    • 标记序列化:BAM 将 SWToken 生成的标记集进行序列化处理,将每个窗口内的标记排列成一个序列。
    • 双向聚合过程:利用 Mamba 模型在扫描各个序列时提取局部特征,并通过跨序列遍历整合其连续性。具体来说,BAM 采用双向聚合的方式,分别从前向和后向对序列进行处理,并将结果进行融合,从而得到一个综合的特征序列。
    • 输出特征图:最终,BAM 将处理后的序列重塑为特征图,用于后续的血管分割处理。
  • Spatial-Frequency Fusion Unit(SFFU) :从空间和频率域整合血管特征,构建全面的特征表示,以实现完整且连通的血管分割。频率域中,每个窗口的内容通过快速傅里叶变换(FFT)转换并堆叠其实部和虚部后输入 BAM,处理后的序列重塑的补丁经逆 FFT 后进行拼接,通过空间注意力和通道注意力机制实现特征融合。SFFU 的工作原理如下:
    • 频域转换:在频域情况下,SFFU 将每个窗口的内容通过快速傅里叶变换(FFT)进行转换。这一步骤将空间域的特征转换到频域,以便捕获频率域中的特征信息。
    • 特征融合:SFFU 采用空间注意力(Spatial Attention, SA)和通道注意力(Channel Attention, CA)机制,对空间域和频域特征进行融合。具体来说,SFFU 计算了空间注意力和通道注意力的权重,然后利用这些权重对空间域和频域特征进行加权融合。
    • 逆转换与拼接:在频域中处理后的特征序列会被转换回空间域,并与空间域的特征进行拼接,从而形成一个综合的特征表示。

研究价值

论文提出的方法在三个具有挑战性的数据集(CHASE-DB1、OCTA-500 和 DCA1)上进行了广泛的实验,结果表明 SWinMamba 在保持低计算成本的同时,实现了优越的完整性(completeness)和连通性(connectivity),并且具有较强的通用性。该方法在临床疾病诊断和手术导航中具有巨大的应用潜力。

ArXiv 2507 | SWinMamba: Serpentine Window State Space Model for Vascular Segmentation

要点的汇总

  1. 创新性地将蛇形窗口序列融入双向状态空间模型实现血管连续性建模 :论文提出 SWinMamba 方法,通过创新性地将蛇形窗口序列融入双向状态空间模型,解决了现有方法难以有效建模血管固有几何连续性(VGC)的问题,从而实现对纤细血管结构连续性的高效建模,为医学图像分割领域提供了一种新的有效方法,有效提升了血管分割的完整性和连通性。
  2. SWToken 提供灵活感受野以适应血管结构建模 :SWToken 能自适应地以蛇形方式分割输入图像,利用重叠窗口序列提供灵活的感受野,其通过定位适应血管形态的锚点并动态确定剩余锚点坐标,在 s×s 窗口中密集采样 tokens 捕捉几何信息,使得模型能够更好地聚焦于血管结构,为后续的特征提取和血管连续性表示奠定了基础,相比传统的分词策略,更有效地保留了血管的空间连贯性,避免了因刚性分词导致的感受野破坏和连接错误等问题。
  3. BAM 有效整合局部特征实现血管连续性表示 :BAM 通过双向聚合机制将局部特征整合到血管连续性表示中,尤其关注 VGC,它将 SWToken 生成的 tokens 集排列成序列,利用 Mamba 在扫描序列时提取局部特征,并通过跨序列遍历整合连续性,从而实现了对血管结构中顺序依赖关系的有效建模,提升了血管分割的连通性,解决了现有方法难以有效整合局部特征以表示血管连续性的难题。
  4. SFFU 构建全面特征表示提升分割性能 :SFFU 从空间和频率域整合血管特征,通过快速傅里叶变换(FFT)将频率域特征转换并堆叠其实部和虚部后输入 BAM,处理后的序列经逆 FFT 拼接,并利用空间注意力和通道注意力机制实现特征融合,从而构建了更全面的特征表示,有助于捕捉血管结构的多尺度信息和细节特征,进一步提升了血管分割的完整性和准确性,使 SWinMamba 在不同模态的医学图像中均能实现优越的分割性能。
  5. 在多数据集上验证了方法的优越性和通用性 :通过在三个具有挑战性的数据集(CHASE-DB1、OCTA-500 和 DCA1)上的实验,结果表明 SWinMamba 在不同模态的医学图像中均能实现完整且连通的血管分割,相比其他方法在 β0(反映血管连通性)、clDice 和 Dice 系数等评估指标上均有显著提升,且在计算成本方面具有较低的 FLOPs 和 Params,证明了该方法在保持较低计算负担的同时,能够获得更优的分割效果,具有良好的通用性和实用性,可为临床疾病诊断和手术导航提供更可靠的血管分割结果。
  6. 消融实验验证各组件的有效性 :论文通过在三个数据集上进行广泛的消融实验,验证了 BAM、SWToken 和 SFFU 各组件的有效性。添加 BAM 能提取有效血管特征;SWToken 显著提升 β0、clDice 和 Dice 等评估指标,平均提升幅度分别为 18.17%、0.63% 和 0.60%,说明其提供的灵活感受野对构建有效血管表示至关重要;SFFU 的加入在 M2 的基础上进一步显著提升指标,证明了其有助于构建全面的特征表示,从而为完整血管分割提供支持,这些实验结果有力地证明了所提方法各部分对血管分割性能提升的重要贡献,进一步凸显了 SWinMamba 方法的整体优势。