OpenAI 服务调整背景下国产大模型落地路径分析
六月底,OpenAI 突然宣布,将于今年 7 月 9 日起终止所有来自中国的 API 申请。这一公告在海外鲜少有人讨论,但在国内 AI 业界却引发了不小的震动。因为中国大陆此前一直不在 OpenAI 的服务名单上,但对于国内的访问,OpenAI 总是若即若离的态度——既不严格封禁,更不完全放开。而这次的公告则传递了一个相当明显的新信号,'睁一只眼闭一只眼'的蜜月期要结束了,接下来国产大模型要靠自己了。
中美科技博弈下的供应链挑战
中美之间的 AI 角力中,这不是第一次出现断链。去年 10 月 17 日,英伟达、AMD、英特尔等公司在美国商务部的要求之下,计划停止向中国出口先进的 AI 芯片。今年,美国财政部又最新出台一份规则草案,要求对美国在半导体和微电子、量子计算和人工智能领域的投资进行监管,禁止或限制中国在 AI 和其他技术领域的投资。
这次 OpenAI 断供,首当其冲的就是依赖 OpenAI API 的'套壳'创业公司。这些公司通常基于开源模型或调用外部接口快速构建应用,缺乏核心底层技术积累。然而,对于国产大模型来说,这场断供潮正在迫使更多公司重新思考:OpenAI 到底是不是个稳定而长久的选择?这恰恰是难得一遇的大好机会,推动技术栈从'依赖进口'向'自主可控'转型。
后 OpenAI 时代,到底有没有自主可控的强大底座能力做支撑,决定了国产大模型到底能在这条路上走多远。另一个关键问题是如何应用大模型,让它能真正发挥最大价值。只有这个问题得到解决,才能形成良性循环,避免陷入单纯的技术内卷。
科大讯飞星火 V4.0 技术解析
6 月 27 日,就在 OpenAI 宣布退出中国后的两天,科大讯飞发布了星火 V4.0 大模型,给出了这两个问题的答案。在不少大模型厂商试图用低价和'一键搬家'从 OpenAI 手中抢用户时,国产大模型的代表科大讯飞选择从技术指标上直面 GPT。
6 月 27 日,科大讯飞创始人、董事长刘庆峰带来了讯飞星火 V4.0 大模型的首秀,展示了星火大模型整体超越 GPT-4 Turbo 的硬实力,带来了一系列商业化落地应用。而在发布会前夕,科大讯飞刚刚荣获国家科学技术进步奖一等奖,成为本届国奖一等奖的唯一民营企业获奖者。这也是深度学习引发全球人工智能浪潮以来,十年间人工智能领域首个国家科学技术进步奖一等奖。
基准测试与性能表现
在国内外 12 项大模型主流测试集中,讯飞星火在 8 个测试集中排名第一,整体超越了 GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Pro。在另一项中国科学院人工智能产学研创新联盟和长三角人工智能产业链联盟,在去年 6 月份联合发布的国产通用认知智能大模型测评体系中,讯飞星火 V4.0 的具体表现如下:
- 文本生成:80.2%,超越 GPT-4 Turbo
- 语言理解:82.3%,展现强大的语义解析能力
- 知识问答:85.7%,依托海量中文语料训练
- 逻辑推理:82.2%,强化思维链(Chain of Thought)优化
- 数学能力:86.5%,针对复杂计算场景优化
- 代码能力:81.2%,仍有提升空间
- 多模态能力:78.4%,持续迭代中
有趣的是,在多模态方面,星火大模型更侧重于专业领域。其图文识别能力在科研、金融、医疗、司法、办公、教育等场景的应用效果已领先 GPT-4o。根据发布会现场信息,比起 GPT,星火大模型 V4.0 更加擅长利用已有资料进行联系推理,比如解读几张有联系的图片的关系,为其补全内容情节,并减少'幻觉'的出现。
星火 V4.0 新增了长文本溯源功能,当它给出回答时,会同时给出信源,方便核实比对。这一功能对于法律、医疗等对准确性要求极高的垂直领域尤为重要,有效降低了大模型常见的'一本正经胡说八道'风险。
生产力工具化与行业落地
刘庆峰谈到,大模型已经不只是消磨时间的玩具或者执行简单任务的聊天机器人,而是正在成为真正的生产力工具。自 2023 年 9 月全面开放以来,讯飞星火 APP 在安卓公开市场累计下载量达 1.31 亿次。'讯飞星火 APP 的使用高峰期不是周末,而是工作日;不是晚上,而是工作日的上午 9:30 和下午 3:30',刘庆峰说,'这说明大家真正用星火来解决工作中的刚需问题。我们一直说大模型应该是解放生产力、释放每个人想象力的,从这些数据就可以看到。'
教育领域的深度实践
用 AI 解放生产力,在一些行业看来还稍显科幻,但意料之外又情理之中的是,地球上战斗力最强的高知群体——海淀家长,已经开始用大模型押题了。据家长群信息,海淀一部分家长把 6 月某全国大型考试历年的真题喂给大模型,让它帮助阅读提炼整理。然后问它'过去三年哪些知识点不考了?过去五年出现 3 次及以上的知识点是哪些?'甚至他们还问了去掉的知识点换成了哪些新的知识点,每年相比上一年的新知识点占比是多少?最后直接让 AI 给孩子出个模拟卷并给出答案。
在做题这件事上,AI 可能真的比家长更擅长。在 2024 北京中考测试中,星火 V4.0 取得主客观题双双第一的成绩。在高考评测中获得语文作文 51.5 分(满分 60),数学得分率 71% 的成绩,突破了 AI 在数学和创意写作上的瓶颈。


