> 技术文档 > 论文笔记:GTR: A General, Multi-View, and Dynamic Framework for Trajectory Representation Learning

论文笔记:GTR: A General, Multi-View, and Dynamic Framework for Trajectory Representation Learning

ICML 2025

1 INTRO

  • 轨迹通常被表示为一系列时空点的序列,用于记录移动对象(如人员或车辆)的移动情况,并支持多种应用,如相似性搜索和交通模式分类
  • 近年来,轨迹表示学习逐渐兴起,其目标是将高维轨迹转换为低维向量(即轨迹嵌入),这些向量既保留了原始数据中的关键信息,又能挖掘隐藏特征,进而被用于各种轨迹分析任务
    • 现有的轨迹表示学习研究大致可以分为两类:
      • (1)自由空间视角
        • 早期研究将轨迹视为纯粹的点序列,忽略了道路网络的约束,因此通常采用 LSTM 和 RNN 等序列模型来建模轨迹数据中的时空依赖关系。
      • (2)路网视角
        • 考虑到如人员和车辆等移动对象通常受限于道路网络,研究者又发展出基于路网的轨迹表示学习方法
        • 这类方法通常首先利用图神经网络(GNN)对路段进行嵌入学习,输入为道路网络图;然后将路段嵌入送入序列模型中,以捕捉隐藏的时空关系
    • 近期,一些先进方法如 START和 JGRM引入了自监督学习范式,以提高轨迹表示学习在多个任务上的泛化能力
  • 然而,要构建有效的轨迹表示学习模型仍面临几个尚未解决的挑战:
    • 挑战 C1:单一视角表示的局限性。
      • 现有的表示学习方法通常从单一视角(自由空间或路网)对轨迹建模
      • 然而,轨迹数据本身蕴含着复杂的时空语义信息,许多下游任务所需的核心特征和语义细节难以通过单一视角完全捕捉。
        • 图 1(a) 展示了一个实际轨迹 T 在道路网络上的路径及其周围复杂的环境
        • 图 1(b) 给出了从道路网络视角对 T 的表示,仅反映其拓扑结构,忽略了所经过区域的语义信息
          • 这种方式学习得到的轨迹嵌入可能无法编码所经过路段或区域的潜在语义,从而影响如语义感知的轨迹相似性检索等下游任务
        • 图 1(c) 展示了使用网格划分方法从自由空间视角表示的 T
      • 因此,如何协同融合多视角进行轨迹表示学习,是当前的一个重要挑战
    • 挑战 C2:多任务适配的局限性。
      • 许多方法是为特定轨迹分析任务设计的,这限制了其在不同应用场景下的泛化能力
      • 如图 2(a) 所示,任务特定的方法需要为每个任务单独训练模型,开发成本高昂。
      • 论文出一种通用方法(如图 2(b) 所示),希望支持多种下游任务。
        • 虽然预训练-微调的自监督学习框架在表示学习领域取得了成功,但其在轨迹表示学习中的直接应用可能会削弱模型的鲁棒性与泛化能力。
      • 如何平衡空间与时间特征的学习,使模型能自动适配多种轨迹分析任务,是一个尚未解决的问题。
    • 挑战 C3:模型更新支持不足。
      • 轨迹数据具有强烈的动态特性,特别是在城市环境中,轨迹数据持续不断地产生
      • 这一持续的数据流动背景下,轨迹模式会随交通状况不断演化。
      • 因此,持续学习新轨迹中的最新时空特征对于保持准确的表示模型至关重要
  • ——>论文提出GTR:一个通用的、多视角的、动态的轨迹表示学习框架,旨在生成鲁棒的轨迹嵌入,支持多种下游轨迹分析任务。
    • 针对 挑战 C1,我们提出多视角编码器(Multi-View Encoder, MVE),从自由空间和路网视角共同编码原始轨迹,融合区域语义与道路拓扑信息,以捕捉丰富的时空特征;
    • 针对 挑战 C2,我们设计了基于 Transformer 的时空融合预训练机制(Spatio-Temporal fusion Pre-training, STP),并引入 时空专家混合模块(Spatio-Temporal Mixture of Experts, ST-MoE),可根据任务需求动态学习与适配不同的时空特征,实现数据驱动的特征整合;
    • 针对 挑战 C3,我们提出了在线冻结-激活更新策略(Online Frozen-Hot Updating, OFU),在模型更新中有选择地冻结 Transformer 编码器的参数,以高效适应轨迹数据的动态变化;

2 预备知识

2.1 GPS 轨迹

2.2 道路网络

2.3 路网约束轨迹

2.4 网格约束轨迹

2.5 问题定义

3.1 多视角embedding

3.1.1 道路嵌入 

  • 首先从openstreetmap收集道路网络 G 中路段的特征与语义信息

    • 例如限速、道路类型和道路长度等信息

  • 接下来使用图注意力网络(Graph Attention Network,GAT)将这些特征 Fv​ 编码为道路嵌入 ZR​。

    • 在第 l 层 GAT 中的操作数学表达如下

    • 随后,注意力系数通过以下方式进行归一化,以聚合顶点 vi的邻居信息:

    •  最终,每个节点的特征通过如下方式聚合更新:

3.1.2  结合兴趣点的网格嵌入(Grid embedding with POIs)

  • 为每个网格单元分配一个嵌入向量,然后将轨迹映射到对应的嵌入向量上

3.1.3 位置嵌入

就是最经典的位置嵌入了 

3.1.4 时间嵌入

  • 分钟、星期、年份嵌入

3.1.5 特征融合 

网格嵌入 ZG​、道路嵌入 ZR​ 和 位置嵌入 ZP融合,以得到最终的空间特征表示

3.2 时空融合预训练

3.2.1 设计动机

  • 近期研究主要聚焦于轨迹下游任务的一个子集,如到达时间预测(TTE)、轨迹分类和最相似轨迹检索等
    • 然而,传统的预训练任务通常并不适用于所有下游任务。
    • ——>设计了一个 STP 模块
      • 目标是开发一种动态轨迹表示学习模型,能够生成支持多种下游任务的通用轨迹表示
      • 分为三个阶段:
        • (i)时空特征融合;
        • (ii)预训练;
        • (iii)微调

3.2.2 时空融合(Spatio-Temporal Fusion)

  • 不同的下游任务对时空特征的依赖比例各不相同,因此需要动态地调整融合策略
  • 受到 Mixture of Experts(MoE)方法在跨领域特征融合中效果良好的启发,提出 ST-MoE 模块,专为动态融合时空特征而设计。

3.2.3 预训练

  • 采用 Transformer 编码器进行预训练,以通过精心设计的预训练任务学习通用的轨迹表示
    • 使用掩码语言模型(Masked Language Model, MLM)作为轨迹表示的预训练任务,因为其在处理序列数据方面已经被证明非常有效
    • MLM 随机从序列中选取 token、进行掩码,然后训练 Transformer 编码器去预测被掩码的 token,从而捕捉丰富的上下文信息。
      • 然而,直接将这一技术应用于受道路网络约束的轨迹表示时会存在一定的局限性
      • 原因在于,轨迹中路段的邻接性使得 Transformer 编码器相对容易地预测被掩码的 token
      • 因此,将单个路段视为序列 token 会导致预训练模型缺乏足够的复杂性,难以支持更高级的下游任务
      • ——>为了克服这一限制,论文提出了一种新的 span 掩码方法,该方法对连续的路段(即子轨迹)而非单个路段进行掩码
  • 该方法主要包括三个步骤:
    • 步骤1:对于受道路网络约束的轨迹数据集D^{\\mathcal{T}^r},应用数据增强技术以丰富训练数据并为模型优化提供额外的信息。
      • 这些技术包括
        • 子轨迹选择(sub-trajectory selecting)
          • 随机删除轨迹中的一段连续子序列来增强轨迹数据
          • 为了保持轨迹的连贯性,剪裁仅发生在轨迹的起点或终点。
          • 剪裁比例在 0.05 到 0.15 之间随机选取。
          • 该方法有效的原因在于:具有相似起点或终点的轨迹,通常也具有相似的特征。
        • 路段漂移(road drifts)
          • 轨迹中的随机道路及其对应的时间戳会被选中并进行掩码处理。掩码后的轨迹被视为具有缺失值的数据
    • 步骤2:
      • 给定一个需要掩码的受道路网络约束的轨迹 \\mathcal{T}^r,随机选择其中 30% 的路段并将其替换以实现掩码操作。
      • 接着,提取被掩码轨迹的特征表示 ZF​,并基于 ZF​ 通过多头注意力机制获得加权后的表示 h。
    • 步骤3:
      • 使用交叉熵损失函数训练模型来预测被掩码的路段

3.2.4 微调——到达时间估计

3.3 在线冻结-热更新(Online Frozen-Hot Updating,OFU)

  • 以往方法常常未能利用轨迹数据的实时性能力,在动态环境中轨迹频繁变化的情况下,这会降低其在下游任务中的有效性
    • 为克服这一限制,论文提出了一种在线冻结-热更新策略(OFU)
    • 此外,论文还引入了模型可解释性方法,用于解释模型输出背后的逻辑,有助于通过合理的方法进行优化

3.3.1 Online Updating(在线更新)

  • 考虑使用持续收集的最新轨迹数据进行模型更新
    • 然而,若将这些最新数据用作训练样本重新训练整个模型,将导致下游任务效率低下
    • 因此,模型更新的同时,必须确保下游任务性能不被破坏。
    • 同时,历史轨迹信息也必须在更新过程中被保留,因为它们包含对轨迹分析至关重要的信息。
  • ——>提出了一种增量式在线更新策略

4 实验

4.1 数据集

 

4.2 实验设置

  • 所有实验在 CentOS 7 系统和 NVIDIA A40 GPU 上进行
  • GTR 使用 PyTorch 1.13.1 实现
  • GTR 的嵌入维度设为 768,预训练任务中的掩码比例为 30%,dropout 设置为 0.2

4.3 实验结果

4.3.1 轨迹相似度计算

  • Top-k 相似度检索任务,并计算以下指标:
    • 平均排序(Mean Rank, MR)

    • Hit Rate @1(HR@1)

    • Hit Rate @5(HR@5)

4.3.2 轨迹简化

4.3.3 轨迹补全

4.3.4 到达时间估计

4.3.5轨迹分类

4.3.6 轨迹生成