AI 语音交互与大模型架构实践
AI 语音交互大模型主要有两种主流实现路径:
- All in LLM:将语音、文本等所有模态统一输入到大语言模型中,由模型内部完成理解与生成。
- 模块化组合:采用 ASR(语音识别)+ LLM(大语言模型)+ TTS(语音合成)的级联方案。
在实际应用中,这两种方案并非对立。例如在《永劫无间》这类游戏场景中,用户核心需求是低延迟和无障碍交流,并能触发特定动作技能。此时使用成熟的 ASR 和 TTS 技术负责音频信号的高效处理,而 LLM 专注于用户意图的深度理解,往往能取得更好的系统响应速度和体验。
1. 数据策略
训练高质量的大模型,数据是核心基石。数据获取方法主要包括以下四种:
- 自动化获取:类似于 Aone Copilot 代码补全场景。从原始代码或日志中通过规则提取片段作为预测目标。只需设定好策略,即可快速获得千万级训练数据。
- 半自动获取:借助强大的生成式模型(如 ChatGPT)代替人工生成数据,再经过规则清洗得到最终可用数据。这能显著降低标注成本。
- 用户使用数据:类似商品推荐和短视频推荐,利用用户的曝光、点击、停留等行为数据进行隐式反馈训练。
- 人工标注:成本最高,但质量最可控。实施前需明确业务诉求和价值,避免无效投入。
构建数据闭环至关重要。一个完整的数据闭环通常包含:用户使用 -> 生成中间数据 -> 专家矫正和人工标注 -> 校正后的数据迭代系统或模型。只有形成闭环,才能真正达到与大模型交互的系统上线要求。
2. 问答场景多模态处理
在 Aone Copilot 及研小喵等问答系统中,Markdown 常作为输出富文本载体。Markdown 原生支持图片渲染,借鉴小红书方案,可将图片信息通过 Markdown 格式嵌入文本中。
注意事项:
- 数据清洗:确保文本中包含的图片链接有效且可加载显示,剔除无效图片。
- OCR 辅助:图片本身 OCR 提供的信息有限,可结合上下文让大模型猜测图片内容。这类似于 NLP 中的完形填空任务,准确率可达较高水平。
小红书方案放弃了图文类图片的对齐数据,转而采用根据文字推测图片内容的方案。若采用 VQA(视觉问答)模型描述图片,其运行速度难以支撑海量数据处理,因此基于文字的推测方案在效率上更具优势。
实验示例:
user:
要是想训练一个大模型,去思考自己有什么样的数据,数据的获取方法有两种
1. 自动化的获取,就像 Aone Copilot 代码补全场景一样,我们从原始的代码中通过某些规则扣出一块,作为模型的预测数据,我们只需要设定好策略就可以得到千万条数据用来训练
2. 半自动获取,我们可以借助一些更强大的生成模型比如 chat-gpt,让他代替人工生成一些数据,再经过规则清洗得到最终使用的数据
3. 用户使用数据,类似广告推荐的数据,都是通过曝光点击行为来做训练的
4. 人工标注,这种数据获取方法成本非常高,做这种事情的时候,千万先想好自己的业务诉求和价值
<image>
再有,要构建自己的数据闭环。在本次 AICon 中,很多演讲者就演讲了自己怎样构建自己的数据闭环的,这对于大模型非常重要,有了数据闭环才能说真正的达到了一个与大模型交互的系统上线的要求。
以上段落中,<image> 的地方是一张图片,根据上下文推测图片内容,限制在 25 个字
assistant:
图片内容可能是一个展示数据获取方法和数据闭环构建流程的流程图或示意图。
基于此逻辑,待召回数据的存储格式可优化为:
要是想训练一个大模型,去思考自己有什么样的数据,数据的获取方法有两种
1. 自动化的获取,就像 Aone Copilot 代码补全场景一样,我们从原始的代码中通过某些规则扣出一块,作为模型的预测数据,我们只需要设定好策略就可以得到千万条数据用来训练
2. 半自动获取,我们可以借助一些更强大的生成模型比如 chat-gpt,让他代替人工生成一些数据,再经过规则清洗得到最终使用的数据
3. 用户使用数据,类似广告推荐的数据,都是通过曝光点击行为来做训练的
4. 人工标注,这种数据获取方法成本非常高,做这种事情的时候,千万先想好自己的业务诉求和价值

再有,要构建自己的数据闭环。在本次 AICon 中,很多演讲者就演讲了自己怎样构建自己的数据闭环的,这对于大模型非常重要,有了数据闭环才能说真正的达到了一个与大模型交互的系统上线的要求。
3. 图像 Vision Transformer
基于自注意力机制的 Transformer 架构已成为 NLP 的首选模型。随着计算效率和可扩展性的提升,训练超过 100B 参数的模型成为可能。Vision Transformer (ViT) 将这一架构引入计算机视觉领域。


