国内 AI 大模型近 200 个:开源闭源、参数量与榜单的潜力解析
本文分析了国内近 200 个 AI 大模型的发展现状,探讨了开源与闭源、参数量大小及榜单排名的实际意义。文章指出,开源模型在成本和灵活性上具有优势,但闭源模型在服务集成上更便捷;参数量并非唯一指标,架构创新与数据质量同样关键;榜单排名仅供参考,实际业务体验更为重要。未来竞争将聚焦于垂直领域深耕、端侧部署能力及数据合规安全,建议企业结合自身场景与技术能力进行评估。

本文分析了国内近 200 个 AI 大模型的发展现状,探讨了开源与闭源、参数量大小及榜单排名的实际意义。文章指出,开源模型在成本和灵活性上具有优势,但闭源模型在服务集成上更便捷;参数量并非唯一指标,架构创新与数据质量同样关键;榜单排名仅供参考,实际业务体验更为重要。未来竞争将聚焦于垂直领域深耕、端侧部署能力及数据合规安全,建议企业结合自身场景与技术能力进行评估。

虽然'最有前途'难以绝对定论,但我们可以从技术路径、资源投入及市场应用等维度排除一些误区。在评估国产大模型时,需警惕以下三个常见认知偏差:
人工智能时代的降临不亚于蒸汽机、电力或数字化对人类生产方式的变革。随着 AI 算法的不断演化和计算需求的迅猛增长,大型模型将为社会技术发展带来新一轮指数级信息爆炸。
我国本土大型模型的崛起进程始于 2017 年,当时中国的科研机构与企业积极投身深度学习与自然语言处理领域。据不完全统计,目前国内已有 AI 大模型约 168 家(数据来源:公开行业统计),比早期数据翻了一倍。
其中,通用模型约 24 个,用于科研/医疗/政务/公共服务的模型约 40 个,其余均为商业应用及服务提供。值得一提的是,开源模型相对较少,名列前茅的包括智谱 AI 和清华大学 KEG 实验室联合发布的 ChatGLM,以及百川智能推出的百川大模型系列。
这些智慧触角终将揭开科技未来的迷雾。中国的人工智能之路虽漫长曲折,但我们正稳步走出序章,迈向光明的未来。
在中国,大型模型可分为两大类:一类以模型本身为核心,另一类则以服务应用为主导。
以 ChatGLM 和百川为代表。其独特之处在于在中文语境下的出色表现。为了提升这类模型在处理中文方面的能力,开发者通常采用两种策略:一是扩大词汇表的规模,二是增加中文语料库的比例。
优势:
不足:
另一类大型模型数量较多,通常以套壳 Llama 或其他类似模型为基础,在特定数据集上进行深度的个性化定制和优化。特点在于它们专注于特定市场细分领域,通过深度定制和优化以提升性能。
在我国,目前还是以第二类大型模型主要以服务为主导,如百度、讯飞等推出了通用大型模型。这些模型不开源,用户需通过其提供的服务来使用。它们不仅提供聊天服务,还需要在特定场景中应用以实现盈利。这些模型的服务模式和费用基本与 ChatGPT 及其他竞争对手保持一致,以在市场竞争中取得优势。
自 Llama2 后,大模型圈风雨欲来,可商用开源成为了下一个各大厂商牟足了劲头实现的目标。是否开源并非最终评判某个大模型是否可以在这个斗兽场里存活的标准,关键在于生态构建与商业化闭环。
关于参数量,曾有微软论文指出 ChatGPT 的参数量约为 20B(200 亿),而非以往认为的 100B 以上。虽然该论文后来撤稿,但这引发了对单一参数量维度的反思。
相比单一的参数量维度,宏观来说,大模型的评价其实可以分为以下几个维度:技术维度、商业应用、伦理责任。
哪个模型在深度学习、自然语言处理、计算机视觉等方面有独特的技术优势是最底层的核心逻辑。在此之上,模型的性能通常受训练数据和计算资源的限制。拥有更多、更多样化的数据,以及更先进的计算能力,将直接影响模型的前途。
此外,架构创新(如 MoE 混合专家模型)往往比单纯堆砌参数更能提升效率。基于 Llama2 的开源模型进行数据收集调用及调试的'再生长大模型',也并非没有可能实现弯道超车。
大模型厂商自身是否制定了更具前瞻性的商业策略、合理的商业模式,是其长期存活市场的基础。而其选择的赛道是否满足了标的市场的实际需求,在细分垂直领域的适用性能做到最好,市场是否买单,就是保证它前途光明的必要条件。
最后一个,也是全世界都在面临的同一个问题,就是机器伦理与合规。哪个模型在道德和伦理方面表现出更高的责任感?是否有明确的道德准则,以确保模型在使用中不会伤害社会和个体?哪个模型有更好的合规准则?更好的数据隐私保护和安全措施?
对于非投资市场及终端用户的业内人士来说,评价一个大模型的是非功过则更以数据和实践见真章。在实际业务场景中,推理延迟、Token 消耗成本、微调难度往往比单纯的参数量更具决定性。
内网流传着一份针对中文通用大模型的综合性测评基准(SuperCLUE),月度更新。根据 SuperCLUE 最新一期(2023.07)中文通用大模型榜单排名显示,目前排在前三位的分别是来自百度的文心一言(v2.2.0),来自智谱的 ChatGLM-130B,以及来自科大讯飞的星火(v1.5)。
当然,榜单仅供参考。毕竟某大厂'喜欢给自己飞小红花'的名声过于昭著。对于用户来说,开源/闭源、语料库的偏向性、应用赛道的数据需求等问题太多了。面对着一个还没有蓄满水的鱼塘,从哪片浅滩挖蛤蜊,就是非常见仁见智的事情。
某 AI 大厂的架构师曾私下表示,他们在开发自己的应用模型时,把 C-Eval 排行靠前的几家都试了一下,效果不好说,某个炒的比较热的模型甚至很意外的崩了。虽然他总是嚷嚷着公司抠没钱自己开源,但好处是也让他挖掘到了一些物美价廉的小 LLM,发现实际体验感反而不错。
因此,排名不能完全代表'有前途',投得热也代表不了'有前途'。但在某种程度上,广泛意义上对话的人数量够多可以代表它或许比较有前途。在 2026 年高质量语料即将耗尽的预告下,人工喂养也将不再成为强壮大模型的重要决定因素。就当下来说,哪个模型使用感更好,就押宝在哪个模型。
AI 大模型涌现元年,资本巨头联合科技大佬们开始一场'诸神之战',不断扩展数据池,升级硬核算力。高昂的成本,意味着绝对高门槛。不只如此,AI 2.0 的创业者们要玩得起,技术要求也跃升了一个档次。
据悉,能够把基础模型打造成工程化产品的公司,在一两百个大模型中,用两只手就数的过来。也正是因为如此,招兵买马是头等大事,毕竟国内主导深度学习框架和 AI 框架的高手寥寥可数。
随着我们一步一步对人工智能的开发和了解,从科幻作品中的描摹,到第一次尝试对话的新奇接触,到深入大模型的底层架构,掌握它,训练它,将大模型作为自己在物理态存在之外的智慧之触,只用了短短几十年。这些触角最后汇聚在数据的终点,终将可以拨开我们科技未来的层层迷雾。正如现在,虽然对于中国的人工智能来说仍然是路漫漫其修远兮,但我们正慢慢走出这混沌而曲折的序章,奔向光明的前途之路。
未来的竞争将集中在:
综上所述,选择大模型不应盲目追求参数或榜单,而应结合具体业务场景、成本控制及技术团队能力进行综合评估。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online