全球首款“开源GPT-4O”雏形横空出世,{最佳绝配}非FunAudioLLM&LLAMA3莫属!
全球首款“开源GPT-4O”雏形横空出世,{最佳绝配}非FunAudioLLM&LLAMA3莫属!
原创 AI产品汇 2024年07月10日 07:20 广东
“ 自从OpenAI推出GPT-4O之后,它的热度就一直居高不下。很多朋友都在争分夺秒的调用它的接口实现五花八门的上层应用,同时也在惊叹它的惊艳效果。个人认为GPT-4O最大的价值是将人类与LLM通过语言端到端的沟通与交流的通路打通,并证明它可行!它主要由一个“语音转文本+LLM+文本转语音”模块组成,当前已经有一些效果较好的开源LLM。例如LLAMA3等,但是缺少一个高质量的语音转文字以及文字生成语音开源库,阿里开源的FunAudioLLM恰好可以补齐这个短板,圆你实现开源GPT-4O的梦想!FunAudioLLM是一个旨在增强人类与大型语言模型(LLM)之间自然语音交互能力的模型家族。其核心包含两种创新模式:SenseVoice,用于处理多语言语音识别、情绪识别和音频事件检测;CosyVoice,它通过控制多种语言、音色、说话风格和说话者身份来促进自然语音生成。”
项目主页-https://fun-audio-llm.github.io/
代码链接-https://github.com/FunAudioLLM/
论文链接-https://arxiv.org/pdf/2407.04051
01-GPT-4O剖析
,时长05:54
GPT-4O是OpenAI新推出的一个全新的大语言模型,其中的表示“Omnim odel”,即全能模型的涵义。它是一个融合了“视觉、语音与文本”的多模态大语言模型,主要具有如下的一些核心能力:
代码理解--GPT-4O具有超强的代码理解能力,它在理解英语文本和代码上的性能媲美GPT-4 Turbo,在非英语文本上的性能得到显著性的提升!除此之外,你可以与电脑桌面版的ChatGPT用语音来进行交互。你可以使用它来解释一下某些代码中的某些函数。
语音交互--它打开了语音交互的新模式,用户只需要说下自己的问题,它就可以在毫秒级的时间内快速做出回应,平均耗时仅有320ms左右!它的语音交互功能主要由:“一个音频转文本模型”+“一个接收文本的大语言模型”+“一个文本转语音模型”3部分组成!
支持跨文本、音频与视频实时推理--GPT-4O是一个融合了大量的“文本+语音+视觉”数据训练的一个大语言模型,所有的数据都经过同一个网络架构。它开启了更自然的一种人机交互的新方式,使得人与机器,机器与机器之间的交互更加自然、更加智能、更加耐人寻味!
图像理解能力大幅提升--经过深入的优化,GPT-4O的图像理解能力得到了大幅度的提升,很多GPT-4与GPT-4 Turbo不能处理的问题,它都能完美的帮你处理。例如:让它把OpenAI的logo叠加在杯子垫上面等。
3D视觉内容生成--它很好的将文生3D能力融入其中,可以根据6张生成的图片进行高精度的3D重建任务。除此之外,它可以很好的处理复杂的排版样式问题,可以根据文字制作一组连续的漫画,可以制作一张风格化的海报等等。
总而言之,个人认为GPT-4O最大的价值是“将人类与LLM通过语言端到端的沟通与交流的通路打通,并证明它可行”!它主要由一个“语音转文本+LLM+文本转语音”模块组成,所以对于大家而言,最欠缺的就是语音转文本和文本转语音的功能!阿里开源的FunAudioLLM恰巧可以很好的实现它们,阿里内部肯定也在用这套语音工具来打通通义千问的端到端人机交互新方式,我觉得不久就会出现!
02-FunAudioLLM背景简介
,时长01:52
近年来,人工智能(AI)的进步极大地改变了人类与机器的互动方式,如GPT-4o和Gemini-1.5等。这种转变在语音处理领域尤为明显,高精度语音识别、情感识别和语音生成等功能正在为更直观、更人性化的交互铺平道路。本文介绍了FunAudioLLM,这是一种创新框架,旨在促进人类与大型语言模型(LLM)之间的自然语音交互。FunAudioLLM的核心是我们的两个开创性模型:用于语音理解的SenseVoice和用于语音生成的CosyVoice。
SenseVoice是一个最先进的语音理解模型,擅长语音处理的多个领域。作者提供SenseVoice Small和SenseVoice Large两种变体。对于SenseVoice Small而言,它支持中文、英文、广东话、日语和韩语的多语言识别,通过采用非自动端到端架构,提供极低的推理延迟。这种设计选择的性能比小Whisper快5倍以上,比大Whisper慢15倍以上。另一方面,SenseVoice Large支持50多种语言的语音识别,在识别中文和广东话方面具有显著优势。除了语音识别,SenseVoice还提供了最先进的情感识别和音频事件检测功能,是创建低延迟、类人语音交互系统的理想选择。
03-FunAudioLLM算法简介
如上图所示,FunAudioLLM是一个旨在增强人类与大型语言模型(LLM)之间自然语音交互能力的模型家族。其核心包含两种创新模式:SenseVoice,用于处理多语言语音识别、情绪识别和音频事件检测;CosyVoice,它通过控制多种语言、音色、说话风格和说话者身份来促进自然语音生成。
SenseVoice-Small为5种语言提供了异常低延迟的ASR,SenseVoice-Large支持50多种语言的高精度ASR,而CosyVoice则擅长多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟踪功能。
与SenseVoice和CosyVoice相关的模型已经在Modelscope和Huggingface上开源,并在GitHub上发布的相应训练、推理和微调代码。
通过将这些模型与LLM集成,FunAudioLLM实现了语音到语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙事等应用场景,从而突破了语音交互技术的界限。
04-FunAudioLLM算法应用场景
04.01-不同语音间翻译
如上图所示,通过集成SenseVoice、LLM和CosyVoice,我们可以毫不费力地执行语音到语音的翻译(S2ST)。整个过程复现了GPT-4O的整体流程,让你可以通过语言端到端的与LLM进行交互,即开启了一种全新的交互方式!
04.02-带有情感的语音聊天
如上图所示,通过集成SenseVoice、LLM和CosyVoice,我们可以开发情感语音聊天应用程序。你可以与LLM通过语音的方式进行具有感情色彩的聊天,这是干巴巴的文字所不具备的能力!
04.03-交互式主播
如上图所示,通过集成SenseVoice(一个具有实时世界知识的基于LLM的多智能体系统)和CosyVoice,我们可以创建一个交互式播客。整个过程中,你只需要利用语音来说出你的需求,它就可以利用Agent调用底层的知识库获取到答案,并通过语音的方式回答给你。
04.04-有声电子书
如上图所示,通过LLM的分析能力来构建和识别书籍中的情绪,并将其与CosyVoice相结合,我们实现了具有增强表现力的有声读物。简而言之,你可以用它来给你的孩子做一个虚拟故事老师!
05-FunAudioLLM算法流程
05.01-CosyVoice流程
上图展示了CosyVoice模型在模型推理阶段的流程。CosyVoice中,作者提出用监督语义标记来表示语音,该标记是通过在编码器中插入矢量量化从多语言语音识别模型中导出的。基于令牌,作者进一步提出了一种基于编解码器的语音生成合成器CosyVoice,它由用于文本到令牌生成的LLM和用于令牌到语音合成的条件流匹配模型组成。
总而言之,CosyVoice由一个用于为输入文本生成相应语音令牌的自回归Transformer、一个基于ODE的扩散模型、流匹配以从生成的语音令牌中重建Mel频谱,以及一个用于合成波形的基于HiFTNet的声码器组成。虚线模块在特定的模型使用中是可选的,如跨语言、SFT推理等。
05.02-SenseVoice流程
上图展示了SenseVoice模型的整体架构。SenseVoice是一个基础语音模型,具有多种语音理解功能,包括ASR、LID、SER和AED。SenseVoice Small是一种仅用于编码器的语音基础模型,用于快速语音理解;而SenseVoice Large是一种用于编码器-解码器的语音基础模式,用于在支持更多语言的情况下更准确地理解语音。
SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测。它具有以下特点:
多语言识别: 采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型。
富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。
微调定制: 具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。
服务部署: 具有完整的服务部署链路,支持多并发请求,支持客户端语言有,python、c++、html、java与c#等。
06-FunAudioLLM算法性能评估
06.01-多语言识别能力剖析
上图展示了SenseVoice和Whisper在多语言语音识别领域的基准上面的比较结果。作者在开源基准数据集上比较了SenseVoice和Whisper的多语言识别性能和推理效率,包括AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice等指标。整个评估阶段利用A800机器进行推理效率评估。SenseVoice small采用非自回归端到端架构,推理延迟极低—,与Whisper small相比快7倍,与Whisper-larg相比快17倍。
06.02-架构、参数量、时延评估
上表展示了SenseVoice与Paraformer和Whisper在模型架构、参数规模、支持的语言和推理效率等多个方面的比较结果。通过观察与分析,我们可以发现:SenseVoice small采用非自回归架构,与Whisper相比,该架构在推理效率方面具有显著优势,模型参数量更少、语音推理时延更低、支持多种语言。
07-FunAudioLLM算法效果展示
07.01-不同语音翻译
下面的语音分别展示了将中文的“对,所以说你现在的话,这个账单的话,你既然说能处理,那你就想办法处理掉”话分别转换成英文、日语、粤语、朝鲜语之后的生成效果。
zh_prompt,AI产品汇,6秒
zh_en,AI产品汇,8秒
zh_jp,AI产品汇,10秒
zh_yue,AI产品汇,6秒
zh_ko,AI产品汇,9秒
07.02-情感聊天
Emotional_Voice_Chat,AI产品汇,38秒
07.03-交互式主播
broadcaster,AI产品汇,2分钟
07.04-有声电子书
ghy_eric_qiyue,AI产品汇,34秒
08-总结
GPT-4O中主要在GPT-4的基础上增加了语音转文字以及文字生成语音的核心功能,开启了人类可以直接通过语音的方式与LLM进行交流的先河。当前已经有一些效果较好的开源LLM。例如LLAMA3等,但是缺少一个高质量的语音转文字以及文字生成语音开源库,阿里开源的FunAudioLLM恰好可以补齐这个短板,圆你实现开源GPT-4O的梦想!
相信看完本文的朋友们脑海里已经有一个开源版本的GPT-4O的雏形,通过FunAudioLLM+LLAMA3/其它开源LLM 你就可以实现一个类似于GPT-4O功能的一个大语言模型了!
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
AI产品汇
持续关注“大模型、多模态、文生图、文生视频、Agent、机器人”等热门话题,分享有关AI&AIGC“数据、芯片、前沿算法、部署、产品”等视角的高质量内容与干货!致力于打造一个“有温度、有趣味、专业的AI&AIGC全栈交流社区”!
228篇原创内容
公众号