引言
作为人工智能领域最负盛名的会议之一,ICML 每年都会吸引全球顶尖的研究人员提交数千篇论文。今年,ICML 共收到 9653 篇论文投稿,但最终仅接受了 2609 篇,录用率仅为 27.03%。
本文将深入探讨 ICML 2024 上一些备受瞩目的论文,涵盖最佳论文奖、时间序列、大语言模型与迁移学习、计算机视觉与音频等多个领域。
最佳论文奖
论文标题: Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining
作者: Gautam Kamath(滑铁卢大学教授)、Florian Tramr(苏黎世联邦理工学院计算机科学家)、Nicholas Carlini(谷歌 DeepMind 研究员)
核心内容:
该论文对迄今为止大型语言模型(LLM)的训练范式提出了挑战。
背景: 目前,训练 LLM 通常采用以下方法:首先使用公开数据进行预训练,然后在私有数据上进行微调。然而,论文指出,公开数据本身可能包含敏感或私人信息,而即使经过'隐私保护'的微调,模型仍然可能会记住其预训练数据,这直接危害了隐私,并削弱了'隐私学习'的意义。
问题根源:
对公开预训练价值的过度估计,仅基于公开数据和私有数据分布重叠的参数。
训练这些大型模型需要大量计算资源,无法在最终用户的机器上执行,导致私有数据的外包。
意义: 该论文对当前私有学习实践的批判性立场恰逢 LLM 领域越来越多小型模型涌现之际。作者呼吁科学界考虑解决这些问题的方法。
时间序列
1. 论文标题:A decoder-only foundation model for time-series forecasting
作者: Das 等人
核心内容:
研究问题: 能否利用在海量时间序列数据上训练的大型预训练模型学习时间模式,从而对未见过的数据集进行时间序列预测?
方法:
分块处理: 分块类似于语言模型中的 token。
仅解码器模型: 给定一系列输入分块,模型经过优化,可以根据所有过去分块预测下一个分块。
更长的输出分块: 更长的输出序列可以避免与预测范围长度先验知识相关的限制。
受 LLM 和基础模型快速发展的启发,研究人员提出了一种名为 TimesFM(时间序列基础模型)的基础模型,用于零样本时间序列预测。
TimesFM 的架构基于以下原则:
结果:
该零样本模型能够达到全监督模型的性能。
在多个数据集上的实验结果表明,TimesFM 在时间序列预测任务中表现出色,甚至优于一些传统模型。
2. 论文标题:Position: What Can Large Language Models Tell Us about Time Series Analysis
作者: Jin, Zhang 等人
核心内容:
主要贡献:
路线图:
1950-2000 年代:统计时间序列模型(如 ARIMA、Holt-Winters)。
2010 年代:神经网络时间序列模型(如 RNN、TCN、STGNN)。
2022 年:预训练时间序列模型(如 TF-C、TimeCLR)。
2024 年:以 LLM 为中心的时间序列模型(如 Time-LLM、SocioDojo)。
为 LLM 在时间序列分析中的应用提供了新的视角。
对现有方法进行了基准测试和回顾,并提出将 LLM 集成到时间序列分析中的路线图。
确定了未来机会,例如利用 LLM 解决复杂现实世界的时间序列分析任务。


