时序数据压缩和模态匹配

张开发
2026/4/21 11:02:56 15 分钟阅读

分享文章

时序数据压缩和模态匹配
Less is More: Efficient Time Series Dataset Condensation via Two-fold Modal Matching这是全球首个面向时间序列的数据集压缩框架TimeDC用双模态匹配频率训练轨迹把海量时序数据压缩成极小合成数据集同时让模型效果接近用全量数据训练大幅降低存储与算力成本。链接https://www.vldb.org/pvldb/vol18/p226-miao.pdf代码https://github.com/uestc-liuzq/STdistillation作者Hao Miao, Ziqiao Liu, Yan Zhao, Chenjuan Guo, Bin Yang, Kai Zheng, Christian S. Jensen关键词时序数据压缩模态匹配一、研究背景与问题痛点物联网/边缘设备产生海量时序数据存储、预处理、训练成本极高边缘设备难以承载。传统方法核心集Coreset靠启发式采样无法保证最优解图像领域的数据集压缩方法不适应时序的趋势、周期性等复杂时序依赖。三大挑战有效性与泛化压缩数据易过拟合难以适配不同网络。时序依赖无法捕捉趋势、季节、多变量耦合特征。可扩展性双层优化耗时、易内存溢出。二、核心创新双模态匹配机制TimeDC用频率匹配保时序模式训练轨迹匹配保模型泛化解决上述全部挑战。1. 整体框架先在全量数据上预训练专家轨迹存入缓冲池 → 用压缩数据训练模型 → 同时对齐频率与训练轨迹→ 得到极小高质量压缩集。2. 三大核心模块1时序特征提取 TSFE通道独立机制把多变量时序拆成单变量单独建模避免特征耦合干扰。分块机制 Patching切分成子序列块大幅降低自注意力复杂度提速省内存。堆叠TSOperator自注意力全连接层捕捉长时序依赖。2分解驱动频率匹配 DDFM保时序模式对每层特征做时序分解分离趋势和周期。用余弦相似度对齐原始与压缩数据的频率保证压缩数据保留趋势、周期性等核心时序规律。3课程式训练轨迹匹配 CT²M保泛化与效率专家缓冲池离线预计算全量数据的模型参数轨迹专家轨迹避免在线双层优化防内存溢出、大幅降训练成本。课程式查询从“相似轨迹”到“差异轨迹”逐步匹配让压缩数据模仿全量数据的长期训练动态提升泛化。三、总体优化目标总损失 任务专属损失预测/分类 频率匹配损失 轨迹匹配损失四、实验结论关键结果效果最优在7个时序预测数据集、3个分类数据集上超过所有核心集与数据集压缩方法MAE/RMSE最高降低13.49%/26.59%。压缩数据训练效果接近全量数据。效率极高训练时间比同类方法快73%以上内存占用最高降至1/10。存储仅为原数据的1%4%**参数仅为传统Transformer的**1/51/50。泛化强压缩数据可直接用于Autoformer/Informer/Transformer等不同架构效果稳定。落地场景边缘设备流式学习解决灾难性遗忘适配资源受限环境。五、核心贡献总结首次提出时序数据集压缩填补技术空白。双模态匹配频率匹配保时序特征轨迹匹配保泛化。专家缓冲池分块机制解决内存溢出、训练慢的工程难题。实测在预测、分类、边缘流式学习均SOTA成本大幅降低。六、一句话概括TimeDC用“留时序规律仿训练行为”的双匹配思路把大数据变成小数据让时序模型在边缘设备也能低成本、高性能跑起来。

更多文章