豆包大模型定价进入“厘”时代,火山引擎方舟 2.0 发布
2024 年 5 月 15 日,火山引擎在 FORCE 原动力大会上宣布豆包大模型正式对外开放。新发布的火山方舟 2.0 版本聚焦模型效果、系统承载力和成本三大痛点。豆包通用模型 pro-32k 版推理输入价格低至 0.0008 元/千 tokens,较行业低 99.3%。平台支持分钟级千卡伸缩,内置联网、内容及 RAG 知识库插件,旨在推动大模型规模化落地。预计 2024 年底至 2025 年初将迎来调用量爆发拐点。

2024 年 5 月 15 日,火山引擎在 FORCE 原动力大会上宣布豆包大模型正式对外开放。新发布的火山方舟 2.0 版本聚焦模型效果、系统承载力和成本三大痛点。豆包通用模型 pro-32k 版推理输入价格低至 0.0008 元/千 tokens,较行业低 99.3%。平台支持分钟级千卡伸缩,内置联网、内容及 RAG 知识库插件,旨在推动大模型规模化落地。预计 2024 年底至 2025 年初将迎来调用量爆发拐点。

大模型的性价比之战已经来到了新的阶段。5 月 15 日,在 2024 火山引擎 FORCE 原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。这标志着大模型从内部探索走向商业化普惠的关键一步。
豆包大模型在价格上主打'极致性价比',旨在降低企业使用门槛。具体定价如下:
谭待指出,降低成本是推动大模型快进到'价值创造阶段'的关键因素。过去一年中,许多企业已从探索尝试过渡到将大模型与核心业务流结合。然而,高昂的成本始终是制约大模型在千行百业落地的关键要素之一。降价不仅是为了提供低价轻量化版本,更是为了让主力模型和最先进的模型足够便宜,以满足企业复杂业务场景的需求。
模型的性能和效果是制约企业创新场景的首要条件。火山方舟平台致力于打造'精品模型商店',只选择最优秀的闭源大模型及可持续发展的开源大模型。
字节跳动向外一次性推出了豆包大模型的全系列模型,包括通用模型、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call 模型、文生图模型以及向量化模型。
经过过去一年的内部打磨,豆包大模型从 1.0 进化到 3.0,在字节跳动内部被用于办公智能助手、电商导购、售后客服、营销创作、数据智能分析、编程助手等 50 余个业务场景。日调用量达到 1200 亿 tokens(约 1800 亿汉字),图片生成量超过 3000 万张。目前由豆包大模型支持的 AI 应用助手豆包 APP 累计下载量超过 1 亿,桌面+App 双端月活用户量 2600 万,支持创建的智能体总量超过 800 万。
火山引擎智能算法负责人吴迪表示,当前每日千亿 tokens 级别的量级是中国市场上非常大的单日吞吐量。这意味着平台已经经过了大流量的生产环境验证,能够支持对效果要求严苛的客户。
在大模型被企业逐渐纳入核心流程的阶段,面对更大体量的业务和更剧烈的流量波动,更强的系统承载力至关重要。
吴迪总结称,系统承载力是充沛算力、模型优化能力以及系统调度能力的乘积。升级后的火山方舟在以下三方面增强了系统承载力:
通常而言,企业自建机房平均每天 GPU 使用时间通常在 8-10 小时,高峰期效率最高但其他时间效率较低,拉高了平均成本。火山方舟希望做到在无限短的时间里让算力流动到它该出现的地方。当客户流量爆发时,在毫秒级别增加 GPU 算力;当流量下行时,快速抽离算力。在保证延迟稳定的情况下,贴合流量变化,最终实现最低单位算力成本。
此外,火山引擎在推理层面上做了大量优化,包括算子优化、通信优化、大的集群上主网和储存的优化,帮助适应异构硬件。
火山方舟 2.0 重点更新了插件生态,上线了三个凝结了字节跳动内部强项能力的插件:联网插件、内容插件以及 RAG 知识库插件。
RAG(Retrieval-Augmented Generation,检索增强生成)是企业级应用的核心痛点。火山方舟的 RAG 知识库插件内嵌豆包向量模型,来自抖音和头条两大产品的底层向量库引擎,支持 200 亿的库容量。面对 10 万次请求,能在 3-5 毫秒的延迟内完成。
在企业外挂知识库场景中,通常需要对数十万篇文档进行切片、向量化,然后根据指令从数百万个切片中找到最相关的。这一流程对系统能力的要求极高,需要快速而准确地找到对应内容。这与视频推荐系统筛选的要求一致——都需要根据输入指令快速精准地找到 Top N 内容。这项能力解决了企业对于私有数据检索效率和准确性的渴望。
大模型向千行百业落地的进程仍刚刚开启。吴迪坦言,截至目前大语言模型的调用量级仍然不高,但预计 2024 年年底或 2025 年初,将迎来爆发式的拐点。
拐点到来的必要条件是充满活力的创业公司或强技术能力的企业找到把大模型用好的感觉,如汽车、教育、医疗等行业。吴迪认为,在拐点到来前,无论是火山引擎还是其他同赛道公司,大家需要共同面对问题:
这是一个未来五年、十年、十五年的长期旅程。当模型效果、成本、系统这些问题都解决后,剩下的就是千行百业的客户针对自己的场景思考未来的 AI 时代会发生什么。火山方舟的目标是帮助他们更快、更省地推进这个过程,解除障碍。
目前,豆包大模型团队还在重兵投入,持续招揽研究型专家和高潜人才。在字节跳动招聘官网上可看到该团队有大量职位在招,体现了对大模型的坚决投入。同时,火山方舟形成了专业的算法服务团队,可以在落地全过程协助业务诊断、训练优化、问题解答,比如提示词工程,协助用模型和客户的数据去做一些精调和训练,保障项目落地。
随着豆包大模型的开放和火山方舟 2.0 的升级,大模型基础设施正在变得更加成熟和廉价。这不仅降低了技术门槛,也为更多企业将 AI 融入核心业务提供了可能。未来,随着系统承载力的进一步提升和成本的进一步下降,大模型的应用场景将更加广泛,真正推动社会生产效率的提升。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online