> 技术文档 > 【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数

【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数


目录

  • 【2025年认证杯数学建模挑战赛】C题
  • 数据预处理与问题一求解
    • 三、数据预处理及分析
      • 3.1 数据可视化
      • 3.2 滑动窗口相关系数统计与动态置信区间耦合分析模型
      • 3.3 耦合关系分析结果
    • 四、问题一
    • 代码
      • 数据预处理
      • 问题一

【2025年认证杯数学建模挑战赛】C题

数据预处理与问题一求解

三、数据预处理及分析

3.1 数据可视化

首先对题目所给数据进行可视化,如下图所示:
【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数

  • 图1 多参数可视化图

由上图可知,数据并无明显的异常值。且输入气体2和气体4的数据分布一致性较高,气体1和气体3的数据分布一致性较高。对这两组数据进一步进行进一步的耦合分析。

3.2 滑动窗口相关系数统计与动态置信区间耦合分析模型

本文基于滑动窗口相关系数统计与动态置信区间估计结合分析两组气体的耦合关系。通过局部时域特征提取和统计推断,分析气体浓度序列间关联性的时变规律及突变特征。

首先,对于给定的两列气体浓度时间序列和 X(t)={ x 1 , x 2 ,…, x N } X(t) = \\{x_1, x_2, \\ldots, x_N\\} X(t)={x1,x2,,xN},滑动窗口算法将其划分为若干重叠的子序列段。设窗口宽度为w,滑动步长为s,则第个窗口k对应的子序列为:
W k ( X ) = { x k , x k + 1 , … , x k + w − 1 } W k ( Y ) = { y k , y k + 1 , … , y k + w − 1 } \\begin{aligned} W_k(X) &= \\{x_k, x_{k+1}, \\ldots, x_{k+w-1}\\} \\\\ W_k(Y) &= \\{y_k, y_{k+1}, \\ldots, y_{k+w-1}\\} \\end{aligned} Wk(X)Wk(Y)={xk,xk+1,,xk+w1}={yk,yk+1,,yk+w1}

其中 k k k的取值为 1,s+1,2s+1,…,N−w+1 1, s+1, 2s+1, \\ldots, N-w+1 1,s+1,2s+1,,Nw+1,确保窗口在时间轴上连续覆盖。窗口中心点时间 t k t_k tk取窗口中间位置的时间戳,即 t k =k+ ⌊ w 2 ⌋ t_k = k + \\left\\lfloor\\frac{w}{2}\\right\\rfloor tk=k+2w,以反映窗口内数据的代表性时刻。

在每个窗口内,采用Pearson相关系数量化气体浓度间的线性关联强度。对于第 k k k个窗口,相关系数 ρ k \\rho_k ρk的计算公式为:
ρ k = ∑ i = k k + w − 1 ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = k k + w − 1 ( x i − x ˉ ) 2 ∑ i = k k + w − 1 ( y i − y ˉ ) 2 \\rho_k = \\frac{\\sum_{i=k}^{k+w-1}(x_i - \\bar{x})(y_i - \\bar{y})}{\\sqrt{\\sum_{i=k}^{k+w-1}(x_i - \\bar{x})^2 \\sum_{i=k}^{k+w-1}(y_i - \\bar{y})^2}} ρk=i=kk+w1(xixˉ)2i=kk+w1(yiyˉ)2 i=kk+w1(xixˉ)(yiyˉ)
其中 x ‾ k \\overline{x}_k xk y ‾ k \\overline{y}_k yk分别为窗口内 X X X Y Y Y的值。 ρ k \\rho_k ρk的取值范围为 [−1,1] [-1,1] [1,1],其绝对值越大表明窗口内两气体的浓度变化趋势越一致。

为评估相关系数的统计显著性,引入t检验。构造t统计量:
t k = ρ k w − 2 1 − ρ k 2 t_k = \\rho_k \\sqrt{\\frac{w - 2}{1 - \\rho_k^2}} tk=ρk1ρk2w2

该统计量服从自由度为 ν=w−2 \\nu=w-2 ν=w2的t分布。通过计算p值 p k =P(T>∣ t k ∣) p_k = P(T > |t_k|) pk=P(T>tk),并与显著性水平 α=0.05 \\alpha=0.05 α=0.05比较,可判断窗口内相关性是否显著。

动态置信区间的构建进一步量化了相关系数的不确定性。基于t分布的 100(1−α)% 100(1-\\alpha)\\% 100(1α)%置信区间为:
C I k = [ ρ k − t α / 2 , w − 2⋅ S E k , ρ k + t α / 2 , w − 2⋅ S E k ] CI_k = [\\rho_k - t_{\\alpha/2,w-2} \\cdot SE_k, \\rho_k + t_{\\alpha/2,w-2} \\cdot SE_k] CIk=[ρktα/2,w2SEk,ρk+tα/2,w2SEk]

其中标准误 S E k = ( 1 − ρ k 2 ) ( w − 2 ) SE_k = \\sqrt{\\frac{(1 - \\rho_k^2)}{(w - 2)}} SEk=(w2)(1ρk2) t α / 2 , w − 2 t_{\\alpha/2,w-2} tα/2,w2为t分布的双侧临界值。置信区间不包含零时,表明该窗口内的相关性具有统计意义。

针对关联性突变的检测,采用滑动方差法。定义滑动窗口方差序列:

σ m 2 = 1 m∑ i = k k + m − 1( ρ i − ρ ˉ m) 2 \\sigma_m^2 = \\frac{1}{m} \\sum_{i=k}^{k+m-1} (\\rho_i - \\bar{\\rho}_m)^2 σm2=m1i=kk+m1(ρiρˉm)2

其中 m m m为方差计算窗口大小 m m m ρ ˉ m \\bar{\\rho}_m ρˉm为局部均值。通过设定阈值 θ=η⋅std( σ 2 ) \\theta = \\eta \\cdot \\text{std}(\\sigma^2) θ=ηstd(σ2),当 σ m 2 >θ \\sigma_m^2 > \\theta σm2>θ时判定为关联性突变点。

多尺度分析则通过改变窗口宽度 w w w实现不同时间分辨率的特征捕捉。短窗口( w=100 w=100 w=100)侧重瞬态波动,长窗口( w=400 w=400 w=400)反映稳态关联,多尺度相关系数序列KaTeX parse error: Expected \'EOF\', got \'}\' at position 15: \\{\\rho_k^{(w)}}̲的对比可揭示气体相互作用机制的尺度依赖性。

3.3 耦合关系分析结果

【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数

  • 图2 气体组间动态相关系数演化

【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数

  • 图3 Gas1-Gas3

四、问题一

【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数

代码

数据预处理

【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数

问题一

【2025年认证杯数学中国数学建模网络挑战赛】C题 数据预处理与问题一二求解_2025认证杯数学建模网络挑战赛第一阶段试题c题数据为啥有负数

国奖学姐的认证杯C题完整论文与代码,今天下午写完全部的~