> 文档中心 > 时间序列:时序数据预处理

时间序列:时序数据预处理


时序数据介绍

时间序列数据( Time Series) 是指一系列依时间为序的观察值的集合。

  • 按照时序数据变量,可分为单变量时间序列和多变量时间序列;
  • 按其变量波动性,可分为平稳性时间序列和非平稳性时间序列;
  • 按其连续性,可分为连续时间序列和离散时间序列;
    时序数据分析经历了描述性时序分析、统计性时序分析、频域分析、时域分析,时间序列数据挖掘几个阶段。

时序数据缺失

在数据采集过程中,产生数据缺失的机制主要有完全随机缺失、随机缺失和非随机缺失三种情况。其中,完全随机缺失完全由随机因素造成,随机缺失只依赖于已观测到的变量值,非随机缺失与缺失值自身有关。

基于统计学的填充方法

固定值填充、常用值填充、均值填充、中值填充、上下文数据填充、插值填充。

基于模型的填充方法

自回归模型和自回归差分移动平均模型

基于机器学习的填充方法

KNN、RNN和EM

时序数据噪音

时域滤波方法

用一个滤波器来去除噪声,滤波器通常是一个滑动窗口,而去噪就是用窗口内数据的统计值( 如均值、中值等) 来代替当前值。

频域滤波方法

将信号从时域变换到频域,通过设定阈值将不同频率的信号分开,,主要有低通滤波、高通滤波、带通滤波等,但由于需要获取序列的先验知识且一定程度忽视了时间这一特征,无法准确展示序列细节变化,所以实际应用较少。

时序离群点&异常值

“异常”可能是在特定时间点的外部误差或外生变化,只影响此特定时刻的观测值。也可能是由于内部变化或噪声过程中的内源性作用引起,影响所有后 续观测值。

基于统计学的方法

3σ 法则
回归分析
相似性度量
聚类分析

基于模式表示的方法

Shaplet
SVD
符号聚合近似
分段线性表示

时序特征

直接处理时序原数据会占用大量资源,目前主要有基于统计特征、基于预测模型、基于变换、基于分段函数的表示方式。

基于统计特征的时序表示

时域包括最大值、最小值、峰值、均值、方差、均方值、均方根值等有量纲特征,以及峰值因子、脉冲因子、裕度因子、峭度因子、波形因子、偏度等无量纲特征。

频域包括重心频率、均方频率、均方根频率、频率方差、频率标准差等特征

基于预测模型的时序表示

假设时间序列是某个预测模型的观测值,确定该预测模型的参数值,构建合适的模型。

分为模型假设、模型估计、参数估计、模型检验几个步骤,代表性的方法有自回归移动平均模型。

局座张召忠