Graph+AI 白皮书解读:大模型浪潮下图计算的未来方向
历时半年,由蚂蚁集团和之江实验室牵头,联合北京邮电大学、浙江大学、西湖大学、东北大学、杭州悦数科技、浙江创邻科技、北京大学、北京交通大学、复旦大学、北京海致星图科技、腾讯、信雅达科技、北京枫清科技等单位编写的《Graph+AI:大模型浪潮下的图计算》白皮书,在 11 月 2 日全国智能计算标准化工作组年会上正式发布。
作为白皮书编写小组代表,蚂蚁集团图计算负责人洪春涛,分享了图计算技术和人工智能技术的协同发展,最终将引领行业进入一个全新的图智能时代。

1. 背景
众所周知,图(Graph)计算技术拥有着悠久的历史,最早可以追溯到欧几里得的'七桥问题',适用于面向客观世界的关联关系建模,有着天然的数据可解释性优势。人工智能技术自诞生以来,也历经了多次跌宕起伏,随着硬件算力的提升和大语言模型的兴起,正在带领着人类社区迈入下一个纪元。Graph+AI 白皮书重点围绕着图计算与人工智能技术的结合角度,从数据、算法、应用三个维度拆解了 Graph+AI 技术的发展现状与未来演进。

数据层面: 在图机器学习领域,衍生了图数据采样、图数据构建、图数据增强等技术,以及知识图谱领域的图数据建模与知识表示技术等。
算法层面: 以图神经网络(GNN)、图表示学习为代表的方法为机器学习领域带来了新的进展。受大语言模型的启发,图基础模型(GFM)、大图模型(LGM)等通过预训练和适应性方法提升模型在各种任务中的表达能力和泛化能力。
应用层面: 除了深耕多年的知识图谱、图系统优化等技术,也涌现出大量的新兴的技术结合。例如自然语言转图查询(Text2GQL)、图检索增强生成(GraphRAG),以及结合图技术的智能体(Agent)系统等。
2. 问题挑战
任何事物的发展并非是一帆风顺的,我们看到了大量的 Graph+AI 技术结合的机遇,也很清楚当下行业与技术上面临的问题与挑战。

图数据层面: 图数据采集过程容易受到噪音影响,且噪声沿着边传播,导致危害加大。动态图和异质图对存储和计算有更高的要求。还有就是图数据的标注数据相对较少,标注成本高。复杂的网络结构和多样性导致任务需求不同,模型需要关注的信息粒度也不同。而传统的数据增强方法不适用于图数据,需要针对图数据的特征、结构、标签进行分别增强。
图神经网络层面: 大规模图计算在性能方面存在显著不足,处理大规模图数据需要更高效的算法。动态图和异质图带来了额外的信息处理需求,使得模型之间的迁移和泛化能力面临严峻挑战。另外,节点的不平衡问题、图神经网络的梯度爆炸问题也会严重影响了模型的性能。
图基础模型层面: 图数据集的规模和多样性还不足以支持大图模型的训练,图任务类型多样化,节点级、边级和图级任务的差异性增加了模型设计的复杂性。模型的安全与隐私问题也面临很大挑战。
知识图谱层面: 作为符号化的表示和推理技术方案,在大模型出现之后,如何从知识表示和推理的角度进行协作?哪些知识应该存储于大模型中,哪些知识应该存储于知识图谱中?如何提升知识图谱技术的泛化性,以便更好地与大模型配合并保留其强大的任务泛化能力?这些都是需要解决的重要问题。
图应用层面: 图查询语言标准尚未全面普及,Text2GQL 的技术建设还在做初步探索。图计算系统在系统的成熟度、产品易用性和安全性上,相比于传统计算系统仍有很大改进空间。GraphRAG 在一定程度上可以缓解大模型生成幻觉,但领域知识库的构建成本与表达能力仍需持续建设与改进。智能体技术的发展让大语言模型具备了一定的思考与决策能力,如何将图技术与智能体的规划、思考、行动能力进行深度结合,还需进一步探索。





























