> 技术文档 > 【论文阅读:Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting】

【论文阅读:Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting】


论文阅读:Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

  • 1.多尺度建模
  • 2.自适应路径选择
  • 3.时间序列分解
  • 4.迁移学习
  • 5.实验分析

Pathformer是一种用于时间序列预测的多尺度Transformer模型,它通过引入自适应路径来实现更准确的预测。下图是Pathformer框架方法图:
在这里插入图片描述

1.多尺度建模

通过多尺度划分和双重注意力机制,Pathformer能够从不同时间分辨率和时间距离的角度对时间序列进行建模,同时考虑短期和长期的序列数据,使Pathformer在处理复杂长序列数据时,能够有极高的精准度。

  • 多尺度划分:将时间序列划分为不同大小的块,形成不同的时间分辨率视图。例如,一个时间序列可以被划分为小块(细粒度)或大块(粗粒度),从而捕捉不同尺度的特征。
  • 双重注意力机制:这种设计使得Pathformer能够同时处理不同尺度的特征,避免了传统方法中需要分别处理不同尺度数据的繁琐步骤,从而提高了计算效率。
    块内注意力:在每个划分的块内建立时间步之间的关系,捕捉局部细节,建立每个Patch块内部不同时间点之间的关系。
    块间注意力:在不同块之间建立关系,捕捉全局相关性,建立各个Patch块之间的全局关联。

2.自适应路径选择

不同的时序偏好不同的尺度,这取决于它们不同的时间特征和动态性。Pathformer的自适应路径选择机制可以根据输入数据的特性动态调整建模过程,选择最适合当前数据的特征提取方式。这种自适应性使得Pathformer能够更高效地利用计算资源,避免了对所有可能的特征组合进行穷举计算,从而提高了计算效率。
通过多尺度路由器和聚合器,Pathformer能够动态选择和聚合特定尺度的特征,适应不同时间序列样本的特性。
在这里插入图片描述

  • 多尺度路由器:根据输入数据的特性选择最优大小的块划分,并激活Transformer中的特定部分。路由器使用时间序列分解模块,包括季节性和趋势分解等周期性来增强其对时间动态的把握能力。周期分解将时序从时域转换到频域来提取周期模式,利用离散傅立叶变换将输入时序分解为傅立叶基并选择振幅的基,然后通过逆傅立叶变换得到周期模式。
  • 多尺度聚合器:将从不同尺度提取的特征进行加权聚合,以形成最终的输出,生成的路径权重的每个维度对应多尺度Transformer中的一个patch大小。

3.时间序列分解

通过上述季节性和趋势等周期性时序分解,通过不同核的平均池化进行趋势分解,Pathformer能够更好地捕捉时间序列的动态特性。
其傅里叶变换过程如下:
在这里插入图片描述
这里Φ,A分别代表经过每个频率对应的相位和振幅,{}表示具有前 Kf个振幅的频率。 趋势分解使用不同的kernel进行平均池化来提取周期分解后的剩余部分的趋势模式 。对于不同的kernel,采用加权操作来获得最终的趋势项表示。
在这里插入图片描述对周期项和趋势项与原输入相加,然后在时间维度上进行线性映射。基于时序分解的结果,路由器使用路由函数生成路径权重来选择patch大小进行划分。为了避免权重生成过程中一直选择某几个patch大小,导致相应的尺度模块重复更新而忽视其它更有用的尺度,因此引入噪声项来为权重生成加入随机性。整个权重生成过程如下所示:
在这里插入图片描述

4.迁移学习

本文的迁移学习应用在试验阶段,在两种场景中进行了迁移实验。为了评估模型在不同数据集之间的迁移,模型在ETTh1和ETTm1上进行预训练,然后在ETTh2和ETTm2进行迁移。为了评估模型在同一数据集中对时间的迁移,模型在阿里云三个集群数据(Cluster-A,Cluster-B,Cluster-C)取前70%训练数据进行预训练, 用后30%训练数据进行微调。我们在基准上进行了两种迁移方式,直接预测(zero-shot)和全部微调。同时本文提出了一个部分微调策略,针对模型中少量参数(如多尺度路由网络参数)进行微调,来降低计算成本。
在这里插入图片描述
如上表所示, Pathformer在直接预测和全部微调方法上都超过了基准,表明了Pathformer具有好的泛化性和迁移性,主要来自它自适应多尺度建模的能力。部分微调作为一种轻量化的微调方式仍然实现了一个好的预测效果,大部分超过了基准,说明Pathformer能够提供一种轻量级迁移学习方法。

5.实验分析

主实验:选择九个真实的数据集(公开的benchmark和阿里云数据集)进行实验,从Transformer架构、线性结构、多尺度结构选择九个进几年来比较好的预测模型作为基准,包括 PatchTST、NLinear、Scaleformer、TIDE、FEDformer、Pyraformer和 Autoformer。
为确保公平比较,所有模型都遵循相同的输入长度(ILI 数据集为 H = 36,其他数据集为 H = 96)和预测长度(Cloud Cluster 数据集为 F ∈ {24, 49, 96, 192},ILI 数据集为 F ∈ {24, 36, 48, 60},其他数据集为 F ∈ {96, 192, 336, 720})。
在时间序列预测中选择两个常见指标:平均绝对误差 (MAE)均方误差 (MSE)
在这里插入图片描述
Pathformer超过了baselines,取得了SOTA预测效果。相比于最好的基准PatchTST,Pathformer在MAE和MSE上取得了8.1%和6.4%的提升。相比于线性模型DLinear和NLinear,Pathformer超过了它们,特别是在大数据集上,说明基于Transformer架构的模型依然具有很大的前景。对于多尺度模型Pyraformer和Scaleformer, Pathformer展现出很大的预测效果提升,说明基于自适应多尺度的建模更加有效。

消融实验:W/O Inter、W/O Intra、W/O Decompose 分别表示删除补丁间注意力、补丁内注意力和时间序列分解。
在这里插入图片描述
如表所示, 每个模块展现了不同的影响,其中Pathways的影响显著,这强调了模型自适应选择不同尺度进行多尺度建模的能力对预测效果很重要。patch内注意力在捕捉局部模式方面比较出色,与捕捉全局模型的patch间注意力形成对比。时间序列分解模块分解出周期和趋势项,提升了模型捕捉时间动态性,帮助路由网络更好地进行自适应选择。
敏感性分析:对自适应选择patch size K的数量进行敏感性分析, 评估不同的K对模型预测效果的影响。如表所示,K为2和3时比K为1和4产生更好的预测效果,说明模型的自适应建模多尺度特征帮助提升预测准确率。同时,选择所有的patch 大小并没有取得最好的预测效果,说明针对一个时序样本并不是所有的patch都完全有效,有些patch大小对某些时序样本可能对模型产生负面预测效果,这也突出自适应多尺度建模的重要性。
在这里插入图片描述
本文提出的Pathformer是一种用于时间序列预测的自适应多尺度Transformer。它提出了多尺度patch划分和双重注意力模块实现了多尺度时间分辨率和时间距离的综合建模,使得模型具有完备的多尺度建模能力。此外,自适应Pathways基于不同的时序模式动态地选择和聚合尺度特征。这些创新的机制使得Pathformer在多个预测任务上取得出色的预测效果,并展现了不错的泛化性。在多个真实世界数据集上的实验结果表明,它在多变量和单变量时间序列预测任务中均取得了最佳性能。与现有模型相比,Pathformer在预测精度和泛化能力方面都有显著提升。特别是在不同输入长度和数据集上的表现,证明了其在处理长序列和复杂时间动态方面的优势。

本片博客参考了论文《Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting》

造句网