AI 语音交互与大模型架构实践
AI 语音交互大模型主要有两种主流实现路径:
- All in LLM:将语音、文本等所有模态统一输入到大语言模型中,由模型内部完成理解与生成。
- 模块化组合:采用 ASR(语音识别)+ LLM(大语言模型)+ TTS(语音合成)的级联方案。
在实际应用中,这两种方案并非对立。例如在《永劫无间》这类游戏场景中,用户核心需求是低延迟和无障碍交流,并能触发特定动作技能。此时使用成熟的 ASR 和 TTS 技术负责音频信号的高效处理,而 LLM 专注于用户意图的深度理解,往往能取得更好的系统响应速度和体验。
1. 数据策略
训练高质量的大模型,数据是核心基石。数据获取方法主要包括以下四种:
- 自动化获取:类似于 Aone Copilot 代码补全场景。从原始代码或日志中通过规则提取片段作为预测目标。只需设定好策略,即可快速获得千万级训练数据。
- 半自动获取:借助强大的生成式模型(如 ChatGPT)代替人工生成数据,再经过规则清洗得到最终可用数据。这能显著降低标注成本。
- 用户使用数据:类似商品推荐和短视频推荐,利用用户的曝光、点击、停留等行为数据进行隐式反馈训练。
- 人工标注:成本最高,但质量最可控。实施前需明确业务诉求和价值,避免无效投入。
构建数据闭环至关重要。一个完整的数据闭环通常包含:用户使用 -> 生成中间数据 -> 专家矫正和人工标注 -> 校正后的数据迭代系统或模型。只有形成闭环,才能真正达到与大模型交互的系统上线要求。
2. 问答场景多模态处理
在 Aone Copilot 及研小喵等问答系统中,Markdown 常作为输出富文本载体。Markdown 原生支持图片渲染,借鉴小红书方案,可将图片信息通过 Markdown 格式嵌入文本中。
注意事项:
- 数据清洗:确保文本中包含的图片链接有效且可加载显示,剔除无效图片。
- OCR 辅助:图片本身 OCR 提供的信息有限,可结合上下文让大模型猜测图片内容。这类似于 NLP 中的完形填空任务,准确率可达较高水平。
小红书方案放弃了图文类图片的对齐数据,转而采用根据文字推测图片内容的方案。若采用 VQA(视觉问答)模型描述图片,其运行速度难以支撑海量数据处理,因此基于文字的推测方案在效率上更具优势。
实验示例:
user:
要是想训练一个大模型,去思考自己有什么样的数据,数据的获取方法有两种
1. 自动化的获取,就像 Aone Copilot 代码补全场景一样,我们从原始的代码中通过某些规则扣出一块,作为模型的预测数据,我们只需要设定好策略就可以得到千万条数据用来训练
2. 半自动获取,我们可以借助一些更强大的生成模型比如 chat-gpt,让他代替人工生成一些数据,再经过规则清洗得到最终使用的数据
3. 用户使用数据,类似广告推荐的数据,都是通过曝光点击行为来做训练的
4. 人工标注,这种数据获取方法成本非常高,做这种事情的时候,千万先想好自己的业务诉求和价值
<image>
再有,要构建自己的数据闭环。在本次 AICon 中,很多演讲者就演讲了自己怎样构建自己的数据闭环的,这对于大模型非常重要,有了数据闭环才能说真正的达到了一个与大模型交互的系统上线的要求。
以上段落中,<image> 的地方是一张图片,根据上下文推测图片内容,限制在 25 个字
assistant:
图片内容可能是一个展示数据获取方法和数据闭环构建流程的流程图或示意图。
基于此逻辑,待召回数据的存储格式可优化为:
要是想训练一个大模型,去思考自己有什么样的数据,数据的获取方法有两种
1. 自动化的获取,就像 Aone Copilot 代码补全场景一样,我们从原始的代码中通过某些规则扣出一块,作为模型的预测数据,我们只需要设定好策略就可以得到千万条数据用来训练
2. 半自动获取,我们可以借助一些更强大的生成模型比如 chat-gpt,让他代替人工生成一些数据,再经过规则清洗得到最终使用的数据
3. 用户使用数据,类似广告推荐的数据,都是通过曝光点击行为来做训练的
4. 人工标注,这种数据获取方法成本非常高,做这种事情的时候,千万先想好自己的业务诉求和价值

再有,要构建自己的数据闭环。在本次 AICon 中,很多演讲者就演讲了自己怎样构建自己的数据闭环的,这对于大模型非常重要,有了数据闭环才能说真正的达到了一个与大模型交互的系统上线的要求。
3. 图像 Vision Transformer
基于自注意力机制的 Transformer 架构已成为 NLP 的首选模型。随着计算效率和可扩展性的提升,训练超过 100B 参数的模型成为可能。Vision Transformer (ViT) 将这一架构引入计算机视觉领域。
3.1 常见方法
ViT 将图像拆分为固定大小的块 (Patch),并将这些图像块的线性嵌入序列作为 Transformer 的输入。处理方式与 NLP 中的 Token 类似。
- Patch Embeddings:图像到 Tokens 的转换过程。
- Position Embeddings:加到图像块中以保留位置信息,这对图像空间结构至关重要。
- Classification Token:为了完成分类任务,在序列中添加一个特殊的
[CLS] 标记(即额外的学习分类标记),用于聚合全局信息。
- Transformer Encoder:由多个堆叠层组成,每层包括多头自注意力机制(MSA)和多层感知机(MLP block)。
不同于 NLP 任务的自回归特性,ViT 早期主要使用类别预测进行训练。但在大规模数据集(14M-300M 图像)上预训练后,ViT 的表现优于同等大小的 ResNet,证明了大规模训练胜过归纳偏置。
此外,图像信息存在关联和冗余,也可通过非监督的 Masked Language Modeling (MLM) 方式进行预训练,例如微软亚研院的 BEIT 工作成果,展示了 BERT 预训练思想在图像 Transformer 上的应用。
3.2 图像问答 VQA
随着 ViT 在大数据集下表现优异,图像任务逐渐从纯 CNN-DNN 深度网络转向与 Transformer 结合。VQA 模型能够回答关于图片的问题,衍生出更多复杂玩法。
对于图像生成,主流做法是采用扩散模型(Diffusion Model)。虽然 Midjourney 等工具在艺术创作上表现出色,但在生成带有具体业务含义的框图时,细节特别是文字的可读性仍有挑战。
4. 语音处理
4.1 FunAudioLLM
通义实验室的 FunAudioLLM 提供了了解音频大模型构成的优秀样例。
4.2 音频多模态大模型方案
解决声音数字化编码及还原的核心在于特征提取。声音与 Encoder 之间的频谱图展示了频率特征,实际工程中可能结合频率特征与其他声学特征。
训练过程与 NLP 大模型类似,遵循从大量通用数据到少量优质领域数据的迁移策略。
4.3 多模块整合方案
整合方案通常归纳为特征融合与端到端两种路径。
以永劫无间游戏场景为例,AI 队友方案中 LLM 负责自然语言输出,角色 TTS 负责效果呈现。这种模块化方案的优势在于每个组件相对成熟,质量可控,整体系统比千亿参数模型更轻量,时延反馈更好,用户体验顺畅。
5. 小结
基于 Transformer 架构的模型展现了极强的泛化能力,规模越大、数据越多,激发出的创造能力越强。但对于固定业务场景,垂域小模型往往是快速迭代的最佳方案。
当前模型仍存在一定程度的程序化特征,对特殊 Token 的理解较为敏感。若训练与使用不匹配,常出现以下问题:
- 输入轮次过多导致的遗忘问题。
- 输出重复停不下来的问题。
- 指令层级错误(如 User 内容误放入 System)导致输出不达预期。
人类思考方式并未出现上述问题,这或许源于 Transformer 架构本身的局限性或训练过程的偏差。尽管挑战众多,AI 辅助业务提效的时代已经到来,未来仍需持续探索更优的架构与训练范式。
注:本文基于技术会议分享整理,旨在探讨多模态大模型的技术落地路径。