时空数据与大模型:基础模型的愿景、挑战与机遇及应用
时空基础模型(STFM)旨在利用大规模预训练神经网络处理具有时空维度的数据,以实现跨领域、空间、时间及尺度的泛化能力。文章指出当前 STFMs 面临领域碎片化、空间异质性、时间动态变化及尺度依赖等挑战,现有模型多局限于特定应用。未来机会在于跨领域协同、统一架构设计、多样化目标设定以及适应数据分布偏移。通过整合物理先验、因果学习及自适应技术,可推动 STFMs 向通用化发展,提升在交通、气象等领域的预测与决策能力。

时空基础模型(STFM)旨在利用大规模预训练神经网络处理具有时空维度的数据,以实现跨领域、空间、时间及尺度的泛化能力。文章指出当前 STFMs 面临领域碎片化、空间异质性、时间动态变化及尺度依赖等挑战,现有模型多局限于特定应用。未来机会在于跨领域协同、统一架构设计、多样化目标设定以及适应数据分布偏移。通过整合物理先验、因果学习及自适应技术,可推动 STFMs 向通用化发展,提升在交通、气象等领域的预测与决策能力。

摘要
基础模型已经革新了人工智能,在性能上设定了新的基准,并在广泛的视觉和语言任务中实现了变革性能力。然而,尽管时空数据在交通、公共卫生和环境监测等关键领域中广泛存在,时空基础模型(STFMs)仍未取得相应的成功。本文提出了时空基础模型的未来愿景,阐述了其基本特征以及广泛应用所需的泛化能力。我们对当前的研究状态进行了批判性评估,识别出与这些理想特征相比的研究空白,并突出了阻碍其进展的关键挑战。最后,我们探讨了推动研究向有效且广泛适用的时空基础模型发展的潜在机会和方向。
深度学习的出现显著推进了各类应用中的最先进性能。在近几年,基础模型(FMs)——在大规模和广泛数据上预训练的大型神经网络——凭借其卓越的'泛化'能力,尤其在语言和视觉任务中,通过迁移学习的概念,取得了变革性的成功。然而,基础模型尚未在涉及时空数据的任务中取得类似的影响。时空(ST)数据涵盖了具有空间和时间维度的各种数据,广泛存在于许多领域,包括城市分析、天气预报、气候科学、环境监测、农业、公共卫生等。随着时空数据从不同来源不断增长,其可行性和潜力也在增加,时空基础模型(STFMs)有望在不同领域学习共享模式,提高效率,特别是对于数据匮乏的应用,增强其泛化能力。然而,由于时空数据的若干特性,大大增加了 STFMs 学习的复杂性,导致进展缓慢。此外,现有的研究高度分散,主要依赖于特定的应用,这阻碍了朝着一种真正通用的时空基础模型(STFM)的进展,而这种模型可以与现有的语言和视觉模型相媲美。
本文提出了时空基础模型的未来愿景,并探讨其在各类时空应用中推进最先进性能的潜力。我们概述了广泛适用的时空基础模型所必需的关键泛化能力,并分析了它们发展的主要挑战和障碍。我们对当前的研究状态进行了批判性评估,识别出与这些理想特征相比的研究空白。我们还探讨了通过有针对性的研究和创新推动进一步发展的机会。总结来说,本文的主要贡献如下:
时空数据是涉及空间和时间维度的任何类型数据。最抽象地说,它可以被理解为一组时间序列,每个序列都与特定的空间位置相关联。我们将时空序列表示为 $X \in R^{V \times N \times T}$,其中 $V$ 代表变量或特征的数量,$N$ 是空间位置的数量(通常但不一定由传感器或测量设备的数量决定),$T$ 是时间步数。在实际应用中,时空数据有多种不同的格式或结构,不同的格式适合不同的应用。下面我们将详细描述每种类型的时空数据。
栅格数据:栅格数据在一个规则且固定的空间网格上结构化,具有高度 $H$ 和宽度 $W$。在这种格式下,$N$ 等于网格中单元格的总数,即 $N=H \times W$。需要注意的是,每个单元格中的特征可能并不对应于物理系统中的唯一数据记录或传感器,这取决于物理和后勤的限制。相反,原始测量值可以通过各种插值技术转换为所需分辨率的栅格数据。栅格数据广泛应用于时空应用领域,如交通、天气与气候分析、医学成像、遥感等。视频数据也可以视为一种特殊形式的栅格数据,其中每个单元格代表一个像素,并在每个时间步包含自己的 RGB 值。
点参考数据:点参考数据与栅格数据类似,不同之处在于数据测量的空间位置可能随着时间步的变化而变化。例如,气象气球收集的气候数据,由于气流的影响,气象气球随时间移动,或者漂浮在海面上的浮标传感器记录的海表温度。在这种情况下,变化的空间位置成为一个额外的变量,必须在每个时间步进行追踪和记录,从而增加了数据结构的复杂性。
轨迹数据:轨迹数据代表了物体在空间中随时间变化的路径,包含一对地理坐标和时间戳:${ l_i, t_i \u007d$。它通常应用于与移动相关的领域,例如行人或车辆运动跟踪。在处理多个移动物体时,通常将轨迹数据分为离散的桶,其中特征表示在特定空间边界和特定时间段内的轨迹数量,这与栅格数据非常相似。
事件数据:事件数据通过一组元组 ${ e_i, l_i, t_i \u007d$ 特征化,其中每个元组对应一个特定类型的事件 $e_i$,并在位置 $l_i$ 和时间 $t_i$ 记录。事件通常较为稀有,例如犯罪或交通事故。因此,事件数据通常比其他形式的时空数据更加稀疏,大部分条目为零。由于这种稀疏性,事件数据的建模和分析需要采用专门的技术。
正如相关文献所述,时空数据具有两个关键特性。第一个特性是异质性,意味着时空模式可能会在空间(从一个位置到另一个位置)和时间(从一个时间段到另一个时间段)范围和尺度上有所不同。异质性是一个特别具有挑战性的特性,因为它违反了所有数据样本都是独立同分布的假设,即来自同一概率分布。第二个特性是自相关性,反映了相近时间和空间的测量往往遵循相似的分布,这里的相近既可以理解为空间上的接近,也可以是时间上的接近。这一点在托布勒的地理第一定律中得到了很好总结:'一切都是相互关联的,但近的事物比远的事物更相关。'
时空数据挖掘涉及学习建模时空数据中的空间和时间模式。近年来,结合卷积和递归模块的神经网络在捕捉空间和时间依赖性方面表现出了特别的成功。CNN-LSTMs 首先使用卷积神经网络(CNN)从输入数据中提取空间特征,随后使用长短期记忆(LSTM)网络从提取的空间特征中学习序列模式。另一种方法,ConvLSTMs,将 LSTM 门中的矩阵乘法替换为卷积操作,以捕捉序列模型中的空间依赖性。
时空图神经网络(ST-GNNs)最近由于其能够灵活处理不符合规则网格结构的时空数据而受到关注。它们在时空图上操作,将空间位置表示为图中的节点或顶点,连接的边表示邻近节点之间的空间关系,如接近性或连通性。更多关于 ST-GNNs 的细节可以参考相关综述。
继其他模态的成功之后,Transformer 也因其能够通过自注意力机制捕捉跨越空间和时间的长程依赖关系而在时空数据中引起了广泛关注。与卷积模型(在局部感受野上操作)或递归模型(依赖于顺序处理)不同,Transformer 可以通过同时关注输入序列的所有部分来学习全局关系。这在那些复杂的、非线性的互动在大范围空间和长时间周期内演变的领域中特别有用。Transformer 模型在其他模态的基础模型中也得到了广泛应用。然而,绝大多数时空研究依然采用单任务模型的方式,即为特定任务和训练数据训练单独的模型。
单模型任务范式与基础模型范式的关键区别在于它们的泛化能力。
定义 3.1:泛化是模型从一组数据到另一组数据的有效迁移学习模式的能力。
在单模型任务范式中,模型是针对单一任务和单一领域的数据进行训练的,期望其仅能对来自同一概率分布的未见样本进行泛化。另一方面,基础模型是在更广泛的数据上进行训练的,期望其能够对来自其他分布的新数据进行泛化。在这种背景下,我们对时空基础模型(STFM)的定义如下:
定义 3.2:时空基础模型(STFM)是一个在多种时空数据源上进行大规模预训练的神经网络,旨在通过学习空间和时间依赖性的普遍模式,从而在多个任务之间实现泛化。
这个描述故意保持广泛,以反映现有时空基础模型研究中的显著多样性。我们观察到,基础模型的'基础性'并不是一个二元的描述,而是存在于一个光谱上,其泛化能力的展示程度各不相同。为了开始解读这种多样性,我们提出了一个基本问题:时空基础模型应该能够做什么?我们通过识别时空上下文中任务的四种主要变化方式来回答这个问题,从而得出四种泛化形式,用于评估时空基础模型的能力。总的来说,这些泛化能力如下:
这些泛化能力可以通过两种不同的方式进行评估:
在本节的其余部分,我们全面详细地探讨四种泛化方式,并识别在当前数据和技术限制下实现这些泛化能力的关键挑战。
如前所述,时空数据在广泛的应用中都有存在。每个类别都包含了大量的具体应用。例如,交通领域包括通过道路网络传感器测量的交通流量、交通事故的时间和地点,或公共交通网络中乘客在不同站点的进出量。在天气与气候领域,则有各种不同的大气变量,如气温、降水量或不同污染物的浓度。鉴于这些应用的多样性,第一种泛化方式是跨越不同数据领域的泛化。
第二种泛化方式是跨越不同空间位置。一个时空基础模型不应仅限于从有限的地理空间选择中进行应用,它应该能够从不同的环境和条件中学习,并能够在推理阶段迁移到未见过的地方。
时空基础模型还应能够跨越不同的时间段进行泛化。例如,它应在白天和夜晚、工作日和周末以及从一年到下一年的时间段中都能表现良好。
时空数据跨越了广泛的尺度。从空间尺度来看,可以从小尺度的测量(如米级)到大尺度的观测(覆盖数百公里甚至更远)。同样,时间尺度也从高频观测(如秒级或分钟级时间戳)到低频数据(如天级或周级数据)不等。一个时空基础模型必须能够跨越这些不同的空间和时间尺度进行泛化。
本节中,我们将审视当前时空基础模型(STFM)研究的现状,重点介绍一些特别近期和具有影响力的模型。我们首先简要描述每个模型。
UniST 采用基于 Transformer 的编码器 - 解码器架构,使用掩码补丁建模进行训练,目标是从模型输出中的掩码标记恢复原始数据。在预训练阶段,使用多种掩码来模拟重建阶段中的不同问题。此外,UniST 构建了学习到的提示池,以编码不同形式的时空知识,例如空间邻近性和日常或每周的周期性,这些信息被添加到掩码标记嵌入中,引导模型朝着更好的预测方向发展。
OpenCity 将 Transformer 架构与图神经网络结合,学习来自大规模异构交通数据集的时空依赖关系。
UrbanGPT 学习将时空序列编码为新表示,可以将这些表示嵌入到自然语言提示中,从而使得大型语言模型能够理解和处理这些提示。
ClimaX 使用视觉 Transformer 进行多种天气和气候相关任务。它独立地对每个变量进行标记化和嵌入,以灵活地处理不同数量的输入变量,然后聚合这些变量以减少内存复杂度。
Pangu-Weather 设计了一个三维地球专用 Transformer(3DEST),将天气信息处理为立方体数据,并进行有监督训练,以执行各种天气预测任务。
下表展示了我们对当前最先进的 STFMs 在泛化能力方面的定性评估,基于原始文献中展示的性能。接下来,我们将详细解释我们的评估标准。
一个显著的观察是,与其他模态的基础模型不同,STFMs 在应用上高度碎片化。UniST、UrbanGPT 和 OpenCity 几乎完全专注于交通数据。UniST 和 OpenCity 总共在 21 个数据集上进行训练和评估,但这些数据集中的大多数都涉及交通速度或流量,另外一些数据集包括自行车使用、出租车轨迹和蜂窝使用。两个模型都通过完全排除某些数据集来评估它们在适应未见过的应用中的能力。另一方面,UrbanGPT 仅使用四个来自出租车、自行车和犯罪应用的数据集,其中三个用于预训练。
Pangu-Weather 和 ClimaX 则专注于各种大气变量。ClimaX 总共接受 48 个输入变量,但只评估了其中的 4 个变量。Pangu-Weather 只在预测任务中进行评估。
公共交通数据集的空间覆盖仅限于少数几个主要的城市中心。UniST 和 OpenCity 在预训练和评估中使用的数据集分别来自美国和中国的不同城市,并在这些城市的未见区域上评估泛化能力。UrbanGPT 完全在纽约市的数据上进行训练,并在其对未见区域的泛化能力以及对新城市(如芝加哥)的泛化能力上进行评估。由于这些地理位置非常有限,因此很难评估它们在与训练集高度不同的位置上的泛化能力。
常用的天气数据集使用来自卫星的全球覆盖的真实观测数据,并结合数值天气预测模型,这意味着它们相比交通数据集提供了更广泛的空间覆盖。特别是,ClimaX 在 CMIP6 上进行训练,并在 ERA5 上进行测试,而 Pangu-Weather 在 ERA5 中的不同年份数据上进行训练和评估。这两项工作的主要实验是在全球范围内进行性能测试,尽管ClimaX 也在北美区域进行区域预测。然而,由于训练和推理是同时在整个全球范围内进行的,这并没有展示从已见区域到未见区域的泛化能力。这两项研究也缺乏对空间维度中误差分布的分析。
来自中国的大多数交通数据集仅记录了 2022 年 3 月和 4 月的同一月份数据,时间间隔为 5 分钟。其他数据集在时间跨度和总长度上略有差异,涵盖过去十年。UrbanGPT 在长期预测能力方面的评估通过使用 2017 年数据进行训练,并在 2021 年数据上进行测试。
天气数据集通常包含更长的时间跨度,使得训练和评估可以涵盖更长的时间范围。Pangu-Weather 在 ERA5 中使用了 38 年的数据(1979-2017),并在 2019 年验证,在 2018 年和 2020-2021 年的数据上进行测试;而ClimaX 则使用 CMIP6 数据进行训练,时间范围从 1850 年到 2014 年,并在 ERA5 上进行测试。此外,ClimaX 的气候预测任务扩展至 2100 年,尽管需要注意的是,这并非一个时间建模任务,因为它并未使用历史观测数据来预测未来状态。
大多数交通数据集的记录时间间隔为 5 到 30 分钟。UniST 执行了 6 个时间步长的短期实验和 64 个时间步长的长期实验,无论是输入还是目标输出的大小。UrbanGPT 只考虑了 12 个时间步长的单一时间尺度。
跨空间尺度的泛化对于天气相关应用尤其重要。从空间上看,Pangu-Weather 只考虑了一个空间分辨率;0.25° × 0.25°,大约对应 28km × 28km 的格网大小。相比之下,ClimaX 使用了 5.625° × 5.625°的格网以及 1.40625° × 1.40625°的格网进行评估。它还评估了模型从 5.625°降尺度到 1.40625°的能力,以及仅在北美的区域预测。然而,这些都属于相对大尺度且粗略的分辨率,无法捕捉到最有用的局部模式,这对于地方级预测至关重要。
从时间上看,Pangu-Weather 为不同的预报时间(1 小时、3 小时、6 小时和 24 小时)训练了四个独立的模型,并将这些模型进行聚合,以进行任意时间的预测。这是为了减少预测中的误差传播,尤其是在较长预测时间下,但这也与基础模型的初衷相悖。另一方面,ClimaX 在预训练时随机化了 6 小时到 168 小时(1 周)之间的预报时间,并在评估时使用了不同的预报时间。此外,它考虑了各种预测任务,包括季节性预测和跨越更长时间范围的气候预测。
在第 III-A1 节中探讨了来自不同应用或来源的时空序列之间复杂的关系。这些关系在现有的时空模型中被严重低估。例如,基于我们对传染病通过密切接触传播的理解,我们可以推测人类流动模式和交通流量可能会显著影响疾病传播。因此,捕捉人类流动模式的模型也可能为模拟疾病传播提供有价值的见解。通过训练时空基础模型(STFM)来理解来自多个领域的数据模式,我们可以通过识别和利用跨领域的相关性,增强在特定应用中的性能。
一个重要的考虑是,许多应用之间的关系是有方向的。例如,天气条件可能会影响出行模式,因此准确的天气预测有助于预测交通流量,但反过来并不成立。因此,一个有前景的方法可能是设计机制,将关于时空动态的先验知识(如物理法则和约束)融入模型中。如果某些特征之间的关系尚不明确,我们还可以借助因果学习的最新进展来揭示这些关系。已经有一个专门的研究领域,致力于在时空背景下发现和推断因果关系,这一研究线索在时空神经网络时代中得到了延续。
如第 II 节所述,时空数据以各种不同的类型和格式出现。一个有效的时空基础模型应能够处理所有这些数据类型,但现有的模型主要或完全专注于单一数据类型(即基于网格的栅格数据)。最近有一些初步的工作开始尝试将更灵活的时空图数据纳入模型,然而这些方法大多将其视为简单的预处理步骤,可能未能充分考虑不同数据类型的独特属性。此外,当前研究中对 Transformer 架构的关注过于集中,而 Transformer 由于其自注意机制存在二次复杂度,随着时空数据集的规模以及待建模变量和特征数量的增长,这一复杂度逐渐成为学习时空模式的障碍。为了解决这些挑战,需要创新性的方法,如稀疏注意力机制、高效的基于图的表示以及将 Transformer 与其他架构(如卷积神经网络)结合的混合模型。
现有的时空研究主要集中在预测变量的空间分布或基于历史观测数据预测其未来状态。尽管这些目标具有重要的实践意义,但时空基础模型(STFM)有能力执行许多其他任务。例如,异常检测可以自然地从预测任务中衍生出来,通过测量预测序列与真实序列之间的差异。在这种情况下,底层表示学习的质量起着至关重要的作用,一个在某一任务中表现优秀的模型,通常也能在其他任务中有效地发挥作用,因为它已经学习到强大的特征表示。然而,如果能够为 STFMs 赋予执行其他任务的能力,如分类、聚类或推荐系统,将大大扩展其在各种应用中的实用性,同时又不影响其在其他任务中的准确性。一种有效的方式是为基础模型添加一个轻量级模块,使其能够在不损失准确性的情况下,灵活高效地适应新任务。
基础模型通过大量数据进行训练,跨越不同来源和领域,从而使其暴露于各种场景下。然而,在推理阶段,它们仍然严重依赖于训练数据的统计特性。如果测试数据与训练分布偏离(例如,由于城市发展等时间变化或区域政策等空间差异),模型的表现可能会急剧下降。此外,时空数据的高复杂度和维度增加了在实际应用中遇到未见过的模式或分布外(OOD)场景的可能性。第 III-A2 节和 III-A3 节中已经识别出了这一挑战。基础模型的适应性提供了一个有前景的解决方案来应对这一挑战。近年来,关于计算机视觉中基础模型适应性的研究引起了广泛关注,以提高它们在特定任务中的性能,尤其是在数据分布外的任务中。最新的研究集中在如领域对抗训练等技术上,旨在鼓励模型学习领域不变的特征,此外还有元学习技术,可以通过有限的新分布数据迅速适应新的分布。
为了进一步推动时空基础模型的发展,除了上述理论机会外,还需要在工程实施层面进行优化。首先,数据标准化是关键。建立统一的时空数据格式和接口标准,有助于降低多源数据融合的难度。其次,计算效率的提升不容忽视。针对大规模时空数据的分布式训练框架需要进一步优化,特别是在显存受限的情况下,可以采用梯度累积或混合精度训练策略。最后,可解释性也是未来研究的重要方向。黑盒模型在关键基础设施中的应用受到限制,因此开发能够解释时空预测依据的模型(如注意力可视化、特征重要性分析)将有助于提升用户信任度。
时空基础模型(STFM)作为一种新兴的研究方向,展现出极大的潜力,能够提高现有任务的性能,并解锁与时空数据相关的新任务。尽管 STFMs 在捕捉时空关系的复杂性方面展现了显著的潜力,其在空间区域、时间段和新的下游任务上的泛化能力仍然是一个关键挑战。我们强调了空间变化性、时间动态、数据分布偏移和尺度依赖模式等问题,这些问题限制了有效的泛化能力。
随着时空模型的不断发展,未来的研究应重点开发增强模型适应未见数据分布和动态环境的技术。通过集成更强大的机制来处理跨领域的相关性,并融入细粒度的适应性技术,我们可以充分发挥 STFMs 在广泛实际应用中的潜力。通过持续创新和完善,时空模型有望推动我们对复杂系统的理解,进而实现更准确的预测、更好的决策支持以及跨领域的更优成果。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online