前言
随着人工智能技术的飞速发展,多模态大模型(Multimodal Large Models, LMMs)逐渐成为研究和应用的热点。
Stream-Omni 是中国科学院计算技术研究所、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似 GPT-4o 的大型语言 - 视觉 - 语音模型,能够同时支持文本、图像和语音等多种模态的交互。该模型不仅在视觉理解、语音交互和视觉引导的语音交互任务上表现出色,还通过高效的模态对齐机制,实现了在少量全模态数据(如 23000 小时语音数据)下的高效训练,为用户提供更丰富的多模态交互体验。
Stream-Omni 的核心优势在于其灵活的交互模式和高效的训练策略,使其在智能车载系统、教育辅助工具、智能家居控制、医疗辅助诊断和智能客服服务等多个领域具有广泛的应用前景。

一、项目概述
Stream-Omni 是一个基于大型语言模型(LLM)的多模态交互模型,能够同时处理文本、图像和语音三种模态的输入,并生成相应的文本和语音输出。该模型通过序列维度拼接和层维度映射的方式,实现了视觉与文本的对齐,以及语音与文本的对齐,从而在视觉理解、语音交互和视觉引导的语音交互任务上表现出色。Stream-Omni 的训练仅需少量全模态数据,训练效率高,适合在资源有限的环境中部署。
二、技术原理
1. 基于 LLM 的骨干架构
Stream-Omni 的核心是基于大型语言模型(LLM)的骨干架构。LLM 作为模型的核心,提供了强大的语言理解和生成能力,为多模态交互提供了基础支持。通过将 LLM 与视觉和语音模态进行对齐,Stream-Omni 实现了跨模态的交互能力。
2. 视觉文本对齐
为了实现视觉与文本的对齐,Stream-Omni 使用序列维度拼接的方式,将视觉编码器提取的视觉特征与文本输入进行拼接,再共同输入到 LLM 中,实现视觉和文本模态的对齐。这种方式使得模型能够更好地理解图像内容,并生成与之相关的文本信息。
3. 语音文本对齐
对于语音与文本的对齐,Stream-Omni 引入了基于 CTC(Connectionist Temporal Classification)的层维度映射。在 LLM 的底部和顶部添加语音层,实现语音到文本的映射和文本到语音的生成,从而将语音模态与文本模态对齐。这种对齐方式使得模型能够在语音交互过程中实时生成语音输出,提供流畅的交互体验。
4. 多任务学习
Stream-Omni 采用多任务学习策略,同时训练视觉文本、语音文本及全模态(视觉 + 文本 + 语音)的任务,让模型更好地理解和生成多模态内容。这种策略不仅提高了模型的泛化能力,还增强了其在不同任务上的适应性。
5. 实时语音生成
基于特殊的语音层设计和层维度映射,Stream-Omni 在生成文本的同时,实时生成对应的语音输出,实现流畅的语音交互。这种能力使得用户在语音交互过程中能够同时看到文本和听到语音,从而获得更全面的交互体验。
6. 数据驱动与监督学习结合
Stream-Omni 依赖少量多模态数据进行训练,基于精心设计的对齐机制和多任务学习,能在有限的数据上实现高效的模态对齐和交互能力。这种设计使得模型在数据稀缺的情况下仍能保持良好的性能。

三、主要功能
1. 多模态输入与输出
Stream-Omni 支持文本、图像和语音等多种模态的输入,并能同时生成文本和语音输出。这种能力使得模型能够处理复杂的多模态交互任务,满足不同场景下的需求。




