跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

豆包大模型定价进入“厘”时代,火山引擎方舟 2.0 发布

2024 年 5 月 15 日,火山引擎在 FORCE 原动力大会上宣布豆包大模型正式对外开放。新发布的火山方舟 2.0 版本聚焦模型效果、系统承载力和成本三大痛点。豆包通用模型 pro-32k 版推理输入价格低至 0.0008 元/千 tokens,较行业低 99.3%。平台支持分钟级千卡伸缩,内置联网、内容及 RAG 知识库插件,旨在推动大模型规模化落地。预计 2024 年底至 2025 年初将迎来调用量爆发拐点。

岁月神偷发布于 2025/2/6更新于 2026/5/2816 浏览
豆包大模型定价进入“厘”时代,火山引擎方舟 2.0 发布

大模型价格进入'厘'时代,火山引擎方舟 2.0 发布

引言:性价比之战的新阶段

大模型的性价比之战已经来到了新的阶段。5 月 15 日,在 2024 火山引擎 FORCE 原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。这标志着大模型从内部探索走向商业化普惠的关键一步。

极致性价比:定价策略与行业对比

豆包大模型在价格上主打'极致性价比',旨在降低企业使用门槛。具体定价如下:

  • 豆包通用模型 pro-32k 版:推理输入价格为 0.0008 元/千 tokens。相较于行业平均水平(约 0.12 元/千 tokens),价格低 99.3%。这意味着一元钱能买到豆包主力模型的 125 万 tokens,相当于三本《三国演义》的输入量。
  • 豆包通用模型 pro-128k 版本:推理输入价格为 0.005 元/千 tokens。该价格是 GPT-4 Turbo 128K(0.07 元/千 tokens)定价的 7%。

谭待指出,降低成本是推动大模型快进到'价值创造阶段'的关键因素。过去一年中,许多企业已从探索尝试过渡到将大模型与核心业务流结合。然而,高昂的成本始终是制约大模型在千行百业落地的关键要素之一。降价不仅是为了提供低价轻量化版本,更是为了让主力模型和最先进的模型足够便宜,以满足企业复杂业务场景的需求。

模型效果提升:支持日千亿级别调用

模型的性能和效果是制约企业创新场景的首要条件。火山方舟平台致力于打造'精品模型商店',只选择最优秀的闭源大模型及可持续发展的开源大模型。

豆包大模型系列能力

字节跳动向外一次性推出了豆包大模型的全系列模型,包括通用模型、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call 模型、文生图模型以及向量化模型。

  1. 通用模型:pro 版窗口尺寸最大可达 128K,具备强理解、生成、逻辑和记忆力,适用于问答、总结摘要、创作、文本分类等场景;lite 版面向追求性价比的客户。
  2. 细分场景模型:
    • 角色扮演模型:加强角色代入感,支持老师、朋友、宠物等角色。
    • 语音合成模型:拥有超自然语音合成能力,支持 5s 声音克隆,适用于听书、陪伴交互。
    • 语音识别模型:支持多语种复杂场景,相比小模型识别错误率降低 30%,垂直领域降低 50% 以上。

内部验证与规模

经过过去一年的内部打磨,豆包大模型从 1.0 进化到 3.0,在字节跳动内部被用于办公智能助手、电商导购、售后客服、营销创作、数据智能分析、编程助手等 50 余个业务场景。日调用量达到 1200 亿 tokens(约 1800 亿汉字),图片生成量超过 3000 万张。目前由豆包大模型支持的 AI 应用助手豆包 APP 累计下载量超过 1 亿,桌面+App 双端月活用户量 2600 万,支持创建的智能体总量超过 800 万。

火山引擎智能算法负责人吴迪表示,当前每日千亿 tokens 级别的量级是中国市场上非常大的单日吞吐量。这意味着平台已经经过了大流量的生产环境验证,能够支持对效果要求严苛的客户。

系统承载力增强:分钟级千卡伸缩

在大模型被企业逐渐纳入核心流程的阶段,面对更大体量的业务和更剧烈的流量波动,更强的系统承载力至关重要。

算力调度与优化

吴迪总结称,系统承载力是充沛算力、模型优化能力以及系统调度能力的乘积。升级后的火山方舟在以下三方面增强了系统承载力:

  1. 算力方面:拥有充沛的公有云 GPU 资源池,保障资源潮汐调度,确保流量高峰业务稳定。
  2. 优化方面:创建精调模型接入点后 5 秒即可使用,路由信息持久化保存,即用即达。
  3. 调度方面:能够分钟级完成千卡扩缩容,有效支撑突发流量和业务高峰。

通常而言,企业自建机房平均每天 GPU 使用时间通常在 8-10 小时,高峰期效率最高但其他时间效率较低,拉高了平均成本。火山方舟希望做到在无限短的时间里让算力流动到它该出现的地方。当客户流量爆发时,在毫秒级别增加 GPU 算力;当流量下行时,快速抽离算力。在保证延迟稳定的情况下,贴合流量变化,最终实现最低单位算力成本。

此外,火山引擎在推理层面上做了大量优化,包括算子优化、通信优化、大的集群上主网和储存的优化,帮助适应异构硬件。

丰富的插件生态:嵌入抖音头条底层能力

火山方舟 2.0 重点更新了插件生态,上线了三个凝结了字节跳动内部强项能力的插件:联网插件、内容插件以及 RAG 知识库插件。

核心插件功能

  • 联网插件:提供头条抖音同款搜索能力,实时连接海量优质互联网数据,不断从新数据中学习。支持文本、图像、语音等多模态交互,通过意图识别提供更准确全面的回答。
  • 内容插件:提供头条抖音同源海量内容,支持多模态交互,基于意图的垂类内容信息检索,时效检索更强,帮助大模型深入理解、检索和生成内容。
  • RAG 知识库插件:支持将企业私域数据注入到大模型中,实现毫秒级百亿规模的高性能检索,秒级流式知识库索引更新。

技术深度解析:RAG 与企业需求

RAG(Retrieval-Augmented Generation,检索增强生成)是企业级应用的核心痛点。火山方舟的 RAG 知识库插件内嵌豆包向量模型,来自抖音和头条两大产品的底层向量库引擎,支持 200 亿的库容量。面对 10 万次请求,能在 3-5 毫秒的延迟内完成。

在企业外挂知识库场景中,通常需要对数十万篇文档进行切片、向量化,然后根据指令从数百万个切片中找到最相关的。这一流程对系统能力的要求极高,需要快速而准确地找到对应内容。这与视频推荐系统筛选的要求一致——都需要根据输入指令快速精准地找到 Top N 内容。这项能力解决了企业对于私有数据检索效率和准确性的渴望。

拐点将至:大模型落地即将迎来流量爆发

大模型向千行百业落地的进程仍刚刚开启。吴迪坦言,截至目前大语言模型的调用量级仍然不高,但预计 2024 年年底或 2025 年初,将迎来爆发式的拐点。

未来展望与挑战

拐点到来的必要条件是充满活力的创业公司或强技术能力的企业找到把大模型用好的感觉,如汽车、教育、医疗等行业。吴迪认为,在拐点到来前,无论是火山引擎还是其他同赛道公司,大家需要共同面对问题:

  1. 如何让大模型渗透到千行百业,而不是停留在表面的 POC 测试?
  2. 如何共同将大模型技术推向新的高度?

这是一个未来五年、十年、十五年的长期旅程。当模型效果、成本、系统这些问题都解决后,剩下的就是千行百业的客户针对自己的场景思考未来的 AI 时代会发生什么。火山方舟的目标是帮助他们更快、更省地推进这个过程,解除障碍。

持续投入与人才战略

目前,豆包大模型团队还在重兵投入,持续招揽研究型专家和高潜人才。在字节跳动招聘官网上可看到该团队有大量职位在招,体现了对大模型的坚决投入。同时,火山方舟形成了专业的算法服务团队,可以在落地全过程协助业务诊断、训练优化、问题解答,比如提示词工程,协助用模型和客户的数据去做一些精调和训练,保障项目落地。

结语

随着豆包大模型的开放和火山方舟 2.0 的升级,大模型基础设施正在变得更加成熟和廉价。这不仅降低了技术门槛,也为更多企业将 AI 融入核心业务提供了可能。未来,随着系统承载力的进一步提升和成本的进一步下降,大模型的应用场景将更加广泛,真正推动社会生产效率的提升。

目录

  1. 大模型价格进入“厘”时代,火山引擎方舟 2.0 发布
  2. 引言:性价比之战的新阶段
  3. 极致性价比:定价策略与行业对比
  4. 模型效果提升:支持日千亿级别调用
  5. 豆包大模型系列能力
  6. 内部验证与规模
  7. 系统承载力增强:分钟级千卡伸缩
  8. 算力调度与优化
  9. 丰富的插件生态:嵌入抖音头条底层能力
  10. 核心插件功能
  11. 技术深度解析:RAG 与企业需求
  12. 拐点将至:大模型落地即将迎来流量爆发
  13. 未来展望与挑战
  14. 持续投入与人才战略
  15. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 大语言模型 (LLM) 产品开发流程参考
  • Android 系统日志报告收集与查看指南
  • 互联网大厂职业成长路径与 Android 技术进阶指南
  • ibbot 国产开源 AI 智能体平台解析
  • 基于 YOLOv8/v11/v26 的 Web 目标检测与人脸表情识别系统,Django+Vue3 前后端分离
  • Python 基于 LangGraph 搭建带记忆与人工干预的搜索机器人
  • JDK 官方下载渠道说明
  • 基于 WebView2 的轻量级 Web 桌面应用打包方案
  • 基于协同过滤的招聘信息推荐系统:Django 架构与爬虫实践
  • RabbitMQ 分布式系统实战:从安装部署到 C++ 客户端集成
  • 从 XMLHttpRequest 到 Fetch API:现代前端网络请求的演进与迁移指南
  • C++11 详解:列表初始化与右值引用移动语义
  • 基于单片机的智能家居监控系统设计与实现
  • LLaMA 3.1 模型本地部署与 Streamlit 聊天机器人实战
  • Android Layout Weight 属性原理及正确用法
  • 数据结构实战:堆排序与 TopK 问题详解
  • ComfyUI:AI绘画与图像生成的高效工作流与效率提升指南
  • JSP 文件上传实战:原理、实现与安全注意事项
  • Stable Diffusion XL 1.0 赋能 AR 滤镜素材批量生成实战
  • 医疗自然语言处理(NLP)实战:从场景到模型落地

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online