01 企业动态
CogVideoX 2B:首个开源商用级视频生成模型
作为首个开源商用级视频生成模型,CogVideoX 2B 与智谱 AI「清影」同源,视频长度为 6 秒,帧率为 8 帧/秒,视频分辨率为 720*480,提示词上限为 226 个 token,在 FP-16 精度下的推理仅需 18GB 显存,微调则只需 40GB 显存,这意味着单张 4090 显卡即可进行推理,单张 A6000 显卡即可完成微调。
OpenAI 推出更便宜的 GPT-4o 版本
日前,OpenAI 推出了新版 GPT-4o,相比于上一代模型,输入 token 价格便宜 50%,输出 token 价格便宜 33%,且支持结构化输出,可确保模型输出与 JSON Schemas 完全匹配。
OpenAI:API 支持结构化输出,JSON 准确率 100%
近日,OpenAI 宣布,他们的 API 现在可以严格执行工具模式了。简单来说,就是模型生成的参数将完全匹配你提供的工具模式,再也不会出现乱七八糟的结果了。以前,我们使用工具调用时最头疼的就是模型经常生成不符合工具模式的参数。现在,OpenAI 允许你明确要求生成的参数必须严格匹配提供的工具模式。这一功能将大大提高了开发效率,让我们可以更专注于应用本身的逻辑,而不是被各种参数处理绊住脚步。
OpenAI 联合创始人离职加入 Anthropic
当地时间 8 月 5 日,OpenAI 联合创始人之一 John Schulman 在社交媒体上宣布离职,将跳槽至 Anthropic,后者是由前 OpenAI 研究人员创立的公司,被认为是 OpenAI 强有力的竞争对手,Anthropic 一直标榜自己比 OpenAI 更有安全意识。
AI 芯片初创公司 Groq 获 6.4 亿美元新融资,估值 28 亿美元
为生成式 AI 开发专用芯片的初创公司 Groq 在贝莱德领投的新一轮融资中获得 6.4 亿美元融资,估值为 28 亿美元。这家总部位于加州山景城的公司旨在通过其语言处理单元(lpu)加速 AI 工作负载。Groq 称,这些芯片运行生成式 AI 模型的速度比传统处理器快 10 倍,但能耗只有传统处理器的十分之一。
中国移动:正推进万卡智算集群、万亿级 token 数据、万亿参数大模型
据财联社报道,中国移动董事长杨杰近日表示,在'AI+'行动计划方面,为充分发挥 AI 技术能力的规模效应,公司正在推进'三个万':一是万卡智算集群,目前已经投产运行;二是万亿级 token 数据,目前已投入训练 5 万亿,后续还将逐步投入十几万亿;三是万亿参数大模型。
分析师:苹果或对部分 Apple Intelligence 功能收取高至 20 美元的费用
据《科创板日报》报道,Counterpoint Research 合伙人 Neil Shah 表示,由于对 AI 投资成本高昂,苹果可能会对 Apple Intelligence 收取 10 至 20 美元的费用,以提供更多高级 AI 功能。Shah 指出,AI 让苹果有机会进一步锁定其忠实客户群,因为 Apple Intelligence 将从用户行为中学习从而变得更加个性化。
消息称:近三个月,Humane 首款可穿戴 AI 设备退货量超销量
据 The Verge 获得的内部销售数据显示,从今年 5 月到 8 月,AI Pin 的退货量比购买量还多。数据显示,AI Pin 和配件总销售额刚刚超过 900 万美元,但约有 1000 笔订单在发货前被取消,价值超过 100 万美元的产品被退回。总共售出的 AI Pin 数量约为 1 万台,这仅仅是 Humane 计划到 2025 年 4 月出货 10 万台目标的 10%。
02 技术前瞻
苹果新研究:利用有限内存进行高效大模型推理
尽管大语言模型(LLM)在各种任务中展现出了卓越的性能,但它们对计算和内存的大量需求带来了挑战,尤其是对 DRAM 容量有限的设备而言。在这项工作中,苹果团队通过将模型参数存储在闪存中,并根据需要将其导入 DRAM,解决了高效运行超过 DRAM 可用容量的大语言模型(LLM)的难题。与 CPU 和 GPU 中的本地加载方法相比,这些方法共同使运行模型的大小达到可用 DRAM 的两倍,推理速度分别提高了 4-5 倍和 20-25 倍。
MiniCPM-V:手机上的 GPT-4V 级 MLLM
在这项工作中,开源社区 OpenBMB 提出了一系列可部署在终端设备上的高效 MLLM——MiniCPM-V。最新的 MiniCPM-Llama3-V 2.5 具有以下几个显著特点:1)性能强劲,在 OpenCompass 上的表现优于 GPT-4V-1106、Gemini Pro 和 Claude 3;2)具有强大的 OCR 能力和 180 万像素高分辨率图像感知能力,可感知任何长宽比的图像;3)行为可信,幻觉率低;4)支持 30 多种语言;5)可在手机上高效部署。
Meta FAIR 推出'自教学评估器':无需人工标注,好过 GPT-4
在这项工作中,来自 Meta FAIR 的研究团队提出自教学评估器(Self-Taught Evaluator),旨在仅使用合成训练数据,在没有人工标注的情况下改进评估器。在没有任何标注偏好数据的情况下,该方法可以将一个强 LLM(Llama3-70B-Instruct)在 RewardBench 上的得分从 75.4 提高到 88.3(多数票为 88.7)。这优于 GPT-4 等常用的 LLM 评估器,并与使用标注示例训练的奖励模型的性能不相上下。


