大模型价格进入'厘'时代,火山引擎方舟 2.0 发布
引言:性价比之战的新阶段
大模型的性价比之战已经来到了新的阶段。5 月 15 日,在 2024 火山引擎 FORCE 原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。这标志着大模型从内部探索走向商业化普惠的关键一步。
极致性价比:定价策略与行业对比
豆包大模型在价格上主打'极致性价比',旨在降低企业使用门槛。具体定价如下:
- 豆包通用模型 pro-32k 版:推理输入价格为 0.0008 元/千 tokens。相较于行业平均水平(约 0.12 元/千 tokens),价格低 99.3%。这意味着一元钱能买到豆包主力模型的 125 万 tokens,相当于三本《三国演义》的输入量。
- 豆包通用模型 pro-128k 版本:推理输入价格为 0.005 元/千 tokens。该价格是 GPT-4 Turbo 128K(0.07 元/千 tokens)定价的 7%。
谭待指出,降低成本是推动大模型快进到'价值创造阶段'的关键因素。过去一年中,许多企业已从探索尝试过渡到将大模型与核心业务流结合。然而,高昂的成本始终是制约大模型在千行百业落地的关键要素之一。降价不仅是为了提供低价轻量化版本,更是为了让主力模型和最先进的模型足够便宜,以满足企业复杂业务场景的需求。
模型效果提升:支持日千亿级别调用
模型的性能和效果是制约企业创新场景的首要条件。火山方舟平台致力于打造'精品模型商店',只选择最优秀的闭源大模型及可持续发展的开源大模型。
豆包大模型系列能力
字节跳动向外一次性推出了豆包大模型的全系列模型,包括通用模型、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call 模型、文生图模型以及向量化模型。
- 通用模型:pro 版窗口尺寸最大可达 128K,具备强理解、生成、逻辑和记忆力,适用于问答、总结摘要、创作、文本分类等场景;lite 版面向追求性价比的客户。
- 细分场景模型:
- 角色扮演模型:加强角色代入感,支持老师、朋友、宠物等角色。
- 语音合成模型:拥有超自然语音合成能力,支持 5s 声音克隆,适用于听书、陪伴交互。
- 语音识别模型:支持多语种复杂场景,相比小模型识别错误率降低 30%,垂直领域降低 50% 以上。
内部验证与规模
经过过去一年的内部打磨,豆包大模型从 1.0 进化到 3.0,在字节跳动内部被用于办公智能助手、电商导购、售后客服、营销创作、数据智能分析、编程助手等 50 余个业务场景。日调用量达到 1200 亿 tokens(约 1800 亿汉字),图片生成量超过 3000 万张。目前由豆包大模型支持的 AI 应用助手豆包 APP 累计下载量超过 1 亿,桌面+App 双端月活用户量 2600 万,支持创建的智能体总量超过 800 万。
火山引擎智能算法负责人吴迪表示,当前每日千亿 tokens 级别的量级是中国市场上非常大的单日吞吐量。这意味着平台已经经过了大流量的生产环境验证,能够支持对效果要求严苛的客户。
系统承载力增强:分钟级千卡伸缩
在大模型被企业逐渐纳入核心流程的阶段,面对更大体量的业务和更剧烈的流量波动,更强的系统承载力至关重要。
算力调度与优化
吴迪总结称,系统承载力是充沛算力、模型优化能力以及系统调度能力的乘积。升级后的火山方舟在以下三方面增强了系统承载力:
- 算力方面:拥有充沛的公有云 GPU 资源池,保障资源潮汐调度,确保流量高峰业务稳定。
- 优化方面:创建精调模型接入点后 5 秒即可使用,路由信息持久化保存,即用即达。
- 调度方面:能够分钟级完成千卡扩缩容,有效支撑突发流量和业务高峰。
通常而言,企业自建机房平均每天 GPU 使用时间通常在 8-10 小时,高峰期效率最高但其他时间效率较低,拉高了平均成本。火山方舟希望做到在无限短的时间里让算力流动到它该出现的地方。当客户流量爆发时,在毫秒级别增加 GPU 算力;当流量下行时,快速抽离算力。在保证延迟稳定的情况下,贴合流量变化,最终实现最低单位算力成本。
此外,火山引擎在推理层面上做了大量优化,包括算子优化、通信优化、大的集群上主网和储存的优化,帮助适应异构硬件。


