大模型周报：OpenAI GPT-Next 计划及多模态技术进展

本周大模型行业动态涵盖企业融资与技术突破。Ilya Sutskever 创立的 SSI 获 10 亿美元融资，OpenAI 计划年底发布性能提升百倍的 GPT-Next。智谱、无问芯穹完成新一轮融资，Anthropic 推出企业级订阅计划，xAI 上线 Colossus 集群。腾讯发布混元 Turbo，面壁智能推出 MiniCPM3.0。技术方面，清华团队提出 LongCite 增强长文本引用，港中文团队推出混合 Mamba 和 Transformer 的 LongLLaVA，新加坡国立大学提出 LinFusion 实现单 GPU 1 分钟生成 16K 图像。政策上浙江鼓励人形机器人模型开发，欧盟签署人工智能框架公约。专家观点涉及杨立昆对 LLM 上限的看法及沈向洋关于 AI 治理的建议。

孤勇者发布于 2025/2/7更新于 2026/7/838 浏览

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分，带你快速跟进大模型行业热门动态。

01 企业动态

Ilya 新公司 SSI 官宣融资 10 亿美元

据路透社报道，由 OpenAI 联合创始人、前首席科学家 Ilya Sutskever 在 2 个多月前共同创立的安全超级智能（SSI）公司，完成融资 10 亿美元。这笔融资将用于帮助开发远超人类能力的安全人工智能（AI）系统。SSI 拒绝透露公司最新估值，但接近此事的消息人士称 SSI 的估值已经高达 50 亿美元。Ilya 表示，他将采用与 OpenAI 不同的方式继续践行 scaling law，但尚未透露任何细节。

OpenAI 有望年底发布 GPT-Next，比 GPT-4 强 100 倍

据《科创板日报》报道，在最近举行的 KDDI 峰会上，OpenAI 日本子公司首席执行官 Tadao Nagasaki 透露，代号为'GPT-Next'的新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍，并计划在今年晚些时候发布。GPT-Next 模型性能的提升归功于其优化的架构设计和学习效率的改进，而不是单纯依赖于庞大的计算资源。

智谱完成新一轮数十亿元融资

近日，智谱以 200 亿元的投前估值，完成了新一轮融资，金额达数十亿元。本轮领投方为中关村科学城公司，其为海淀区政府设立的市场化投资平台。

Anthropic 推出 Claude Enterprise 计划

Anthropic 为其人工智能（AI）聊天机器人 Claude 推出一个新的订阅计划——Claude Enterprise，主要面向希望获得更多管理控制和更高安全性的企业客户。Claude Enterprise 允许企业客户上传公司专有文件，帮助他们分析信息、回答相关问题、创建图形和简单的网页，或者充当专用的 AI 助手，其上下文窗口为 50 万 token，可以在一次提示中处理多达 20 万行代码、几十份 100 页的文档或两小时的音频转录。

马斯克：超级 AI 训练集群 Colossus 已上线

日前，马斯克在 X 上发帖表示，其人工智能（AI）初创公司 xAI 已经上线了庞大的 AI 训练系统 Colossus。Colossus 由 10 万张英伟达 H100 GPU 驱动。'Colossus 是世界上最强大的 AI 训练系统，'马斯克表示，'这一系统的规模将在几个月内翻一番，达到 20 万张 GPU（其中 5 万张为 H200)。'

无问芯穹完成近 5 亿元 A 轮融资

日前，无问芯穹宣布完成近 5 亿元 A 轮融资，本轮融资联合领投方为社保基金中关村自主创新专项基金、启明创投和洪泰基金，跟投方包括联想创投、小米、软通高科等。据了解，无问芯穹本次融资募集的资金将用于加强技术人才吸纳与技术研发，做 AI 模型算力的'超级放大器'。

腾讯发布新一代大模型'混元 Turbo'

据财联社报道，在 2024 腾讯全球数字生态大会上，腾讯发布了新一代大模型——腾讯混元 Turbo。该模型采用 MoE 架构，比上一代产品推理效率提升 100%，推理成本降低 50%。此外，腾讯混元 Turbo 的价格也比混元 Pro 降低 50%，输出价格为 0.05 元/千 tokens，输入价格为 0.015 元/千 tokens。

面壁智能推出全新 MiniCPM3.0 基座模型

日前，国内大模型厂商面壁智能推出端侧模型面壁小刚炮系列升级版本 MiniCPM3.0 基座模型。据介绍，MiniCPM3.0 参数大小为 4B，性能超越 GPT-3.5，且量化后仅 2GB 内存，对端侧友好，具有无限长文本的特色。

02 技术前瞻

清华、智谱团队推出 LongCite：让 LLM 在长上下文问答中生成精细引用

尽管目前的长上下文大语言模型（LLM）在回答用户基于大量文本的问题时表现出了强大的能力，但由于其回答中缺乏引用（citation），使得用户很难验证，这导致了人们对其潜在幻觉的可信度的担忧。

在这项工作中，来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答，从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite，这是一种自动基准，用于评估当前 LLM 在带引用的长上下文问答（LQAC）中的性能，显示出相当大的改进空间。

为此，他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF（Coarse to Fine），并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后，他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B，成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。

LongBench-Cite 上的评估结果表明，他们训练的模型在引用质量方面达到了 SOTA，超过了包括 GPT-4o 在内的先进专有模型。

首个混合 Mamba 和 Transformer 的多模态大语言模型

扩展多模态大语言模型（MLLM）的长上下文能力涉及一系列系统优化工作，包括模型架构、数据构建和训练策略。在这项工作中，来自香港中文大学、深圳大数据研究院的研究团队，将模型架构调整为 Mamba 和 Transformer 模块的混合体，并提出了首个混合 MLLM——LongLLaVA（Long-Context Large Language and Vision Assistant）。它不仅在各种基准测试中取得了具有竞争力的结果，还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千张图像，为各种任务展示了广阔的应用前景。

大模型周报：OpenAI GPT-Next 计划及多模态技术进展

01 企业动态

02 技术前瞻

更多推荐文章

相关免费在线工具

03 政策法规

04 专家观点

05 其他

更多推荐文章

相关免费在线工具

大模型周报：OpenAI GPT-Next 计划及多模态技术进展

01 企业动态

02 技术前瞻

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

03 政策法规

04 专家观点

05 其他

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具