大模型已经卷到头了,AI 赛道还有哪些新机会?
5 月 28 日,OpenAI 表示,它已经开始训练一种新的 AI 模型,该模型将接替驱动 ChatGPT 的 GPT-4。直至今日,OpenAI 仍被公认为掌握了大模型核心秘密的公司,其领先地位尚未动摇,其他公司还处于追赶状态。
经过 2023 年'百模大战'的洗礼,国内的大模型竞赛也进入了下半场。今年 5 月,智谱 AI 的入门级产品 GLM-3 Turbo 模型、字节跳动的豆包大模型、百度的文心一言等一众厂商掀起了一轮的大模型降价潮。这其中,阿里云的举措最大,9 款主力模型纷纷宣布降价。各家正在快速抢占市场,从而加速商业化落地。
烧钱之后的商业思考
ChatGPT 并没有颠覆世界,但它彻底改变了每个人对人工智能这项技术的看法,同时也吹响了全球科技企业开展大模型'军备竞赛'的号角,预示着一个崭新的人工智能时代的到来。
过去一年,在中国人工智能领域中,'百模大战'绝对是一个绕不开的话题。2023 年 3 月 16 日,百度官宣新一代大语言模型文心一言启动邀请测试。2023 年 4 月,通义千问大模型在阿里云峰会上揭晓。2023 年 9 月 7 日,在一年一度的全球数字生态大会上,腾讯的混元大模型正式对外亮相。
紧接着,华为、京东、字节跳动、美团、科大讯飞等科技互联网大厂也纷纷入局。此外,移动、联通、电信三大运营商,清华、复旦、哈工大等高校和科研院所,还有达观数据、百川智能、第四范式、出门问问等人工智能创新公司,都在 2023 年发布了各自的大模型。
任何怀揣远大理想且具有研发能力的科技企业,都想将大模型研发的主动权握在自己手里。事实上,大模型从一开始就注定是一场'高门槛的游戏'。如果没有雄厚的资金支持,甚至连拿到入场券的资格都没有。据国盛证券报告估算,GPT-3 训练一次的成本约为 140 万美元。在 GPT-4 的发布会上,OpenAI 的 CEO 奥尔特曼透露,单单 GPT-4 的训练总成本就超过了 1 亿美元。
训练完毕后,大模型的运行成本也不菲。以 ChatGPT 在 2023 年 1 月的独立访客平均数 1300 万计算,其对应芯片需求为 3 万多个 A100,初始投入成本约为 8 亿美元,每日电费在 5 万美元左右。
质疑的声音也随之出现:大模型本身并不会直接产生价值,无论怎么'卷'大模型的研发,最终还是要回归到商业的本质上来,公司不能一味烧钱,必须向盈利的目标迈进。
2023 年 4 月,钉钉、天猫精灵等产品已经接入了通义千问进行测试,成为国内第一批'尝鲜'大模型的产品或应用。这充分体现出互联网大厂们的优势,它们本身的业务场景足够丰富和多样,哪怕没有外部客户,大模型产品在自己的业务上也有足够多的场景进行验证和优化。
很快,阿里巴巴找到了 AIGC 领域的第一款爆款应用——妙鸭相机。2023 年 7 月 17 日,妙鸭相机正式在微信小程序上线。用户只要付费 9.9 元,上传 20 张照片,就能制作出一套'数字分身',使用'数字分身'又可以制作出多套不同风格的写真,这是一个前所未有的 AI 图像生成产品,上线后迅速在社交媒体刷屏。
红杉资本在《Generative AI's Act Two》一文中指出,目前生成式 AI 应用的最大问题,是需要证明自身的价值,因为目前基于基础大模型开发的应用用户留存率明显不够。当前头部消费级 App 第一个月的用户留存率能达到 60%~65%,甚至能达到 85%。生成式 AI 应用的用户留存率,中位数只有 14%。这意味着,用户还没有在生成式 AI 产品中找到足够价值,不能够每天都使用。如果开发者想要建立起持久的业务,就需要解决用户留存问题。
妙鸭相机的负责人张旭也提到,我们思考的是否能够通过 AIGC 技术去满足需求或解决痛点。而并不是说,因为有了 AIGC 的能力,才去探索技术在哪个场景更适合落地。总之,这应该是一个从用户需求出发,反向倒推的过程。
在'百模大战'的下半场,在人工智能领域纵横多年的互联网大厂们已经开始构建大模型生态系统:在 C 端,大厂面向创作者和开发者提供服务;在 B 端,则以提供解决方案为主,尤其偏重金融、文旅、传媒、医疗、政务等行业,同时也为其余大模型研发企业提供算力、数据管理等基础设施服务。
数据的难题与基础设施
如果说算力还是烧钱可以解决的问题,高质量数据的匮乏则是大模型发展中一个绕不开的难题。从训练到部署应用迭代,AIGC 众多垂直场景的落地,通用智能、具身智能等前沿领域的探索,都与高质量、专业化的场景数据密不可分。
这其中,数据标注扮演着不可或缺的上游角色。经验丰富的专业团队或受过专门培训的人员会对结构化及非结构化的原始数据集进行细致的标识、分类、注释和标记操作,这些原始数据涵盖图像、文本、音频、视频,乃至复杂的自动驾驶数据等多种形态的数据资源。
追溯行业发展初期,数据标注完全依赖人工手动完成,以此构筑和丰富机器学习模型所需的训练数据集。尽管这种方法耗时费力且成本较高,但人工标注的确在确保准确性方面表现出无可替代的优势。
在人工标注的数据库中,最著名的当属李飞飞与普林斯顿大学的李凯教授 2007 年合作创建的 ImageNet。人类的眼球平均每 200 毫秒就移动一次,如果将眼睛视为一个照相机,那么一个三岁的儿童就已经看过上亿张图片了。李飞飞认为,正是因为通过如此大量的学习,人脑才具备视觉识别的能力,要让计算机具备视觉识别能力,就需要大量的训练材料。
由于图片标注需要大量人工劳动,ImageNet 通过云计算技术进行众包,请全球 160 多个国家近 5 万名网民对互联网上的图片进行标注。到 2009 年,ImageNet 上已经包含了 2.2 万个类别的 1500 万张经过清洗、分类和标注的图片。并且这个数据库完全开源,免费提供给全球所有研究者。可以说李飞飞创建的 ImageNet 大大加速了人工智能图像识别技术的发展,也让全世界看到了深度学习的无限潜力。
由于数据标注并非许多客户公司的主营业务,它们倾向于将其外包,也因此催生了一众专业数据标注初创公司,例如 Scale AI、Dataloop、SuperAnnotate 等。这类公司开始尝试人机协同的新模式,利用模型预先筛选和初步标注数据,随后交由标注员复核校订,相较于传统的纯人力标注方式,这种 AI 辅助标注手段有效提升了标注速度。


