AI 大模型与互联网行业变革
在腾讯股东大会上,CEO 马化腾深刻指出,人工智能(AI)并非仅仅是互联网领域十年一遇的机遇,而是一个具有深远影响的、堪比电力发明的工业革命级别的重大机遇。
行业概览
随着 AI 领域的竞争日益激烈,模型的发展方向开始呈现分化趋势,从追求通用性转向专注于特定领域的专业化。
据目前统计,中国已有超过 40 家企业推出了自己的大型 AI 模型,例如百度的'文心一言'、阿里巴巴的'通义千问'、科大讯飞的'星火'等,以及即将推出的腾讯'混元'、京东'ChatJD'和华为'盘古'等。这些模型主要分为两大类:
- 通用型大模型:侧重于基础架构的构建,通过在大量通用数据上进行预训练,具备强大的泛化能力,类似于 AI 完成了'通识教育'。这类模型将 AI 开发带入了规模化的工业时代,尽管在特定场景下的专业度尚需提升。
- 垂类大模型:在开源大模型的基础上,针对特定行业应用进行定制。只有少数具有庞大资金、丰富数据资源和应用场景的巨头企业适合开发通用型大模型,例如百度在搜索领域、腾讯在社交媒体领域、阿里巴巴在电商领域的应用。随着 AI 生成内容(AIGC)技术的不断进步,拥有特定场景数据积累的公司将开发出更多专注于细分市场的垂直领域模型。
应用路径
AI 大模型的应用路径日益明晰,一般遵循从'基础大模型'到'行业大模型',最终实现'终端应用'的流程。行业大模型则是在基础大模型的基础上,进一步整合行业数据、知识和专家经验,以提高模型的表现力和可控性。目前在金融、能源、制造、传媒等多个领域,一些领先企业和科研机构已经开始联合开发行业大模型。
开源还是闭源
在开源模型与闭源模型的竞争中,开源模型以其低成本、快速迭代和技术可私有化部署的优势,对闭源模型构成了挑战。例如,Meta 的开源模型 Llama 系列在全球范围内受到开发者和爱好者的欢迎,而国内的百度、腾讯、阿里等企业则在持续迭代自己的闭源模型。随着高性能开源大模型的出现,一些垂直行业应用公司开始转向使用开源模型结合矢量数据库的解决方案,以应对特定应用场景的需求。
开源大模型有效解决了闭源大模型在应用中的一些痛点。例如,使用开源模型可以避免从头训练模型所需的高昂成本,同时,开源社区如 HuggingFace 提供的预训练模型可以让用户快速进行微调和部署。此外,开源模型的快速迭代和私有化部署能力,也帮助企业保护了敏感数据的安全性。
AI+ 还是 +AI
在 AI 投资领域,'AI+'与'+AI'的争论一直存在。
- +AI:代表了传统企业采用 AI 技术。由于传统行业众多,落地场景广泛,且体量庞大,因此赋能的新增价值能够产生规模效应。
- AI+:代表了以 AI 技术为核心的科技企业。它们在算力、算法、数据等方面具有较高的壁垒和先发优势,在自动驾驶等关键领域有机会占据领先地位。
大模型还是小模型
'大模型',即大型语言模型(LLM),以其庞大的参数量、深层神经网络结构和高维特征空间而著称。这类模型通常拥有数以百亿计甚至上千亿的参数,其训练和部署所需的资源极为庞大,主要表现在以下几个方面:
- 算力成本:大模型的训练需要强大的计算能力,依赖于大规模的 GPU 集群或专用 AI 芯片,这导致硬件投资和运维成本显著增加。
- 数据需求:大模型的训练依赖于大量的数据集,以挖掘潜在的模式和规律,这就需要高昂的数据收集、清洗和标注成本。
- 模型复杂性:大模型的设计和构建更为复杂,涉及多层次的神经网络结构和优化算法,增加了研发的技术难度和人力资源投入。
- 协同开发:大模型项目通常规模庞大,需要多学科交叉、大规模团队协作来完成模型的研发、训练和优化。
与此相对,'小模型'则更为轻量级,具有较少的参数和较低的计算资源需求。它们结构简单,易于部署和进行实时运算,更适合资源受限的环境和应用场景。尽管在特定任务上可能不如大模型表现出色,但小模型的高效和便捷性使其在实际应用中同样重要。
近期,小模型的发布呈现出井喷之势:
- 7 月 18 日,OpenAI 推出了 GPT-4o mini,在 MMLU 基准测试中取得了 82.0% 的高分。
- 同日,Apple 发布了 DCLM 7B,一个真正的开源模型,性能超越了 Mistral 7B。
- Mistral 与 Nvidia 联合发布了 NeMo 12B,性能优于 Llama 3 8B 和 Gemma 2 9B。
- 7 月 16 日,HuggingFace 发布了 SmolLM,包含 135M、360M 和 1.7B 三种规模的模型,仅使用 650B 个 token 进行训练,便超越了 Qwen 1.5B 和 Phi 1.5B。
- 7 月 17 日,Groq 发布了 Llama 3 8B 和 70B 工具使用和函数调用模型,在 BFCL 上实现了 90.76% 的准确率。


