摘要
2025 年 5 月,作为核心系统架构师,主持了某新能源车企'新一代自动驾驶数据闭环平台'的重构与升级工作。该平台旨在解决海量路测数据中长尾场景(Corner Case)挖掘难、数据标注效率低以及仿真场景生成成本高等核心痛点。鉴于传统深度学习模型在复杂语义理解和逻辑推理上的局限性,构建了一套基于 RAG(检索增强生成)与 Agent(智能体)协同的 AI 原生数据闭环架构。
本文以该项目为例,论述了大模型应用架构的设计。首先,通过构建多模态向量数据库与语义索引,利用 RAG 技术实现了对 PB 级驾驶数据的自然语言检索与长尾场景挖掘;其次,基于 ReAct 范式设计了数据处理 Agent 集群,利用工具调用(Function Calling)实现了从数据清洗、自动标注到仿真场景重建的全流程自动化;最后,采用了私有化部署的 LLM(大语言模型)与 VLM(视觉语言模型)协同工作,配合推理加速技术,在保障数据安全的同时提升了闭环效率。系统上线后,Corner Case 挖掘效率提升 500%,自动标注准确率达到 95%,显著加速了自动驾驶算法的迭代周期。
项目背景与主要职责
随着公司 L3 级自动驾驶功能的量产落地,车队每天回传的数据量达到 PB 级别。然而,原有的数据处理链路面临巨大挑战:
- 场景挖掘难: 传统基于标签(Tag)的搜索无法处理复杂语义。例如,工程师想找'下雨天,前方有穿着雨衣的骑行者突然横穿马路'的场景,传统 SQL 或标签检索束手无策。
- 标注效率低: 依靠人工标注海量数据,成本高且周期长,无法满足模型快速迭代的需求。
- 工具链割裂: 数据挖掘、标注、仿真等环节由不同工具组成,缺乏统一的智能调度中枢。
为了解决上述问题,决定引入大模型技术重构数据闭环。负责整体技术架构设计与核心模块落地。制定了从'标签检索'向'语义检索 + 智能体编排'转型的技术路线,确立了以 RAG 为知识引擎、Agent 为自动化执行引擎的架构体系。
RAG 与 Agent 架构的核心设计思想
在自动驾驶数据闭环中,将大模型定义为'驾驶脑',RAG 是'驾驶记忆(海量场景库)',Agent 是'数据工兵(自动化工具)'。
1. RAG(检索增强生成):解决'语义理解'与'场景定位'
在自动驾驶领域,RAG 不仅是检索文本,更是检索多模态数据(Video/Image/Lidar)。
- 核心思想: 将海量路测视频片段转化为多模态向量(Embeddings)存入向量数据库。当用户用自然语言描述场景时,系统先检索出最相似的视频片段,将其作为上下文(Context)输入给 VLM(视觉语言模型),让模型判断该片段是否符合需求,从而实现'以文搜图/视频'。
2. Agent(智能体):解决'工具链编排'与'复杂任务自动化'
数据闭环涉及数据清洗、自动标注、仿真生成等多个步骤。
- 核心思想: 基于 ReAct (Reason + Act) 范式构建 Agent。面对'找出所有闯红灯场景并生成仿真测试用例'的任务,Agent 会先思考(Thought),拆解为'检索场景 -> 调用标注工具 -> 调用仿真转换工具'三个步骤,并依次调用对应的 API(Action),最终完成任务。
关键技术实施与落地
在项目中,重点主导了以下三个关键技术模块的设计与实现:
1. 多模态 RAG 场景挖掘系统
为了让工程师能用自然语言'对话式'挖掘数据,设计了**'CLIP + Vector DB + LLM'**的检索架构。
- 多模态向量化: 利用 CLIP 模型及其变体,将车端回传的视频关键帧(Key Frame)和激光雷达点云投影图转化为高维向量,存储在 Milvus 分布式向量数据库中。
- 语义对齐与检索: 当工程师输入'高速公路施工区域,锥桶摆放不规范'时,Query 被转化为向量,在 Milvus 中进行近似最近邻搜索(ANN)。
- LLM 增强校验: 向量检索只能保证'相似',不能保证'精准'。检索出的 Top 50 候选片段,会被送入私有化部署的 Qwen-VL(视觉大模型) 进行二次校验。模型会逐帧分析视频,确认是否存在'不规范锥桶',最终返回精准的 Top 10 结果。这一设计将复杂长尾场景的挖掘准确率从 60% 提升到了 95%。


