前言
数据分析是产品优化的催化剂。每行每业的业务发展都离不开数据的分析和洞察,基于数据进行决策。大模型技术的出现,衍生出了诸多优秀的'大模型 + 数据分析'的产品方案(GBI)。不论是企业还是个人开发者,从事数据分析相关工作的产品、技术、运营人员,都有必要了解行业里优秀的 GBI 产品是如何构建的,并学会使用这些能力为工作提效。
本文旨在辅助读者了解业内'大模型 + 数据分析'(GBI)的优秀产品逻辑,包括支撑的业务场景、产品功能、产品架构、产品实现链路等,并提供具体的测试案例,以辅助遇到类似产品/项目时如何设计系统方案。
1. AI 大厂及独角兽 GBI 产品调研
1.1 阿里云 - 析言 GBI 产品调研
产品概述: 析言 GBI 是基于阿里云通义大语言模型在数据分析领域专门增强的原生数据助理。通过自然语言交互实现 NL2SQL、数据问答、分析及洞察等多维度的大模型智能分析应用,适用于业务变化较快、数据分析时效性强的一线业务场景。
核心业务场景:
- 数据问答:直接回答基于数据的查询问题。
- 数据分析:对数据进行深度挖掘和可视化。
核心功能矩阵:
- Multi-Agent 引擎:包含底层的代码解释器、检索增强工具、数据查询工具,以及多轮 Chat、任务规划、选表、数据分析及可视化 Agent。
- 数据源管理:支持云上数据管理(DB Connector 组件)和非云数据管理(Adapter 组件),打通多种云数据库和本地数据。
高阶功能:
- 模型输出干预
- 数据集管理
- 算法定制(模型微调):针对模型不知道的业务问法或特殊算数公式,支持定制逻辑。
部署方案: 支持公有云和公有云&本地混合部署两种方案。
1.2 智谱清言 - 数据分析智能体调研
智谱清言提供了【数据分析】智能体。用户可通过分析上传文件或数据说明,帮助分析数据并提供图表化,也可通过简单的编码完成文件处理工作。
官方 API 介绍: 用户可调用 API 进行助手交互,支持文件上传与分析。
2. GBI 能力对比测试
为了直观体验不同产品的能力,我们选取了阿里析言、智谱清言数据分析智能体、通义千问 2.5 进行测试。
2.1 测试环境与配置
阿里析言流程:
- 关联并授权访问指定数据库。
- 配置数据表 Schema 信息。
- 配置业务知识。
测试用例: 使用官方预置数据库(消费者信息表 customers、订单信息表 orders、商品信息表 products)及自定义脱敏对话数据文件。
2.2 测试案例详解
(1)数据问答能力测试
- 案例:'显示在 2023-10 月之前加入的客户名单'。
- 结果:析言能够正确生成 SQL 并返回结果,展示了基础的 NL2SQL 能力。
(2)自定义数据分析能力测试
需求:找出数据中机器人回复效果不好的 case,给出原因和推荐回复;评估机器人回复质量;计算回复准确率。
阿里析言表现:
- 简单的统计类需求(如总行数)能完成。
- 复杂的智能分析需求(如评估回复质量)往往无法完成或中途停止,可能受限于复杂指令的理解或执行链路的稳定性。
智谱清言表现:
- 执行逻辑:
- 加载并查看数据,了解结构特点(使用 Python 代码解释器)。
- 阐述问题并告知回答顺序。
- 先回答统计问题(调用 Python 代码解释器)。
- 制定评估标准,随机抽查数据进行分析评估。
- 基于抽查结果给出建议,并估算整体准确率。
- 评价:具备较强的需求分析、任务规划和具体任务执行能力。对于大数据量采用抽样评估的策略,避免了资源开销过大,但在小数据量场景下可能仅完成部分需求。进阶解法应是根据数据量自主决定分析范围,并给出明细。
通义千问 2.5 表现:
- 相比其内部的析言产品,通义千问 2.5 在此场景下表现更好,所有问题均尝试回答完整。
- 对于 badcase 识别和分析较为准确,但在计算全部数据中的 badcase 比例时存在计算错误,认为仅有找出的几条,未覆盖全量数据。
3. 总结与启发
3.1 核心结论
通过对比分析,我们发现要实现通过自然语言更好地完成数据分析相关业务需求,系统需具备以下核心能力:
- 需求分析与任务规划:能够拆解复杂问题,制定执行计划。
- 工具调用能力:熟练使用 Python 代码解释器、SQL 查询、联网搜索等工具。
- 多轮对话能力:保持上下文连贯,引导用户澄清需求。
- Agent 编排:利用 Multi-Agent 引擎协同工作。
3.2 构建 GBI 产品的关键技术架构建议
基于上述调研,构建企业级 GBI 产品建议参考以下架构设计:
1. 数据接入层 (Data Layer)
- 支持多源异构数据接入,包括关系型数据库、NoSQL、CSV/Excel 文件等。
- 建立统一的数据 Schema 注册中心,确保模型能理解元数据。
- 实施数据权限控制,确保敏感数据安全。
2. 模型与推理层 (Model & Inference Layer)
- 集成主流大语言模型(LLM),根据场景选择基座模型。
- 引入 RAG(检索增强生成)机制,将企业内部知识库、业务规则注入 Prompt,减少幻觉。
- 支持模型微调(Fine-tuning),针对特定垂直领域的术语和逻辑进行优化。
3. 智能体编排层 (Agent Orchestration Layer)
- 规划 Agent:负责意图识别和任务拆解。
- 执行 Agent:包含代码解释器 Agent(Python)、SQL Agent、API 调用 Agent。
- 审查 Agent:对生成的代码或 SQL 进行安全检查和语法验证。
- 反馈 Agent:根据执行结果调整策略,支持多轮修正。
4. 应用交互层 (Application Layer)
- 提供自然语言输入界面。
- 支持可视化图表动态渲染。
- 提供导出报告、分享链接等功能。
5. 评估与监控体系 (Evaluation & Monitoring)
- 建立自动化评测集,定期测试 NL2SQL 准确率、代码执行成功率。
- 记录用户反馈,用于持续优化模型和 Prompt。
- 监控 Token 消耗和响应延迟,优化成本。
3.3 实践心得
- 智能体能力差异:目前智谱清言在复杂任务规划上表现较强,通义千问在基础问答上较稳,但商业化产品(如析言)在 Demo 阶段可能未完全对齐基座模型能力,B 端与 C 端团队可能存在差异。
- 评估可行性:借助大模型进行 AI 模型效果评估、Badcase 标记是可行的方向。这可以通过定义评估维度、打分标准,结合代码解释器自动执行来实现。
- 抽样 vs 全量:在处理大规模数据时,模型倾向于抽样分析。产品设计时应明确告知用户评估范围,或提供按需全量分析的选项,平衡性能与准确性。
4. 结语
大模型 + 数据分析(GBI)正在重塑数据分析的工作流。通过构建具备强规划能力和工具调用能力的 Multi-Agent 系统,可以显著降低数据分析门槛。未来,随着模型能力的提升和工程化方案的成熟,GBI 将成为企业数据智能化的基础设施。


