1. SciCode:新型编码基准,最强 LLM 仅解决 4.6% 科学问题
由于语言模型(LM)在许多具有挑战性的任务上已经超过普通人类的水平,开发具有挑战性、高质量和贴近现实的评估变得越来越困难。
为了解决这一问题,来自伊利诺伊大学厄巴纳 - 香槟分校、卡内基梅隆大学的团队及其合作者研究了 LM 在生成代码解决实际科学研究问题方面的能力。他们邀请了包括数学、物理、化学、生物学和材料科学在内的 16 个自然科学子领域的科学家和 AI 研究人员,创建了一个新的编码基准——SciCode。
这些问题自然分解为多个子问题,每个子问题涉及知识调用、推理和代码合成。总体而言,SciCode 包含了从 80 个挑战性主问题中分解出的 338 个子问题,并提供可选描述,说明有用的科学背景信息,以及科学家注释的黄金标准解决方案和用于评估的测试用例。
在测试的模型中,Claude 3.5-Sonnet 表现最好,但在最现实的情况下仅能解决 4.6% 的问题。研究团队认为,SciCode 既展示了现代 LM 在成为有用科学助手方面的进展,也为未来科学 AI 的构建和评估提供了启示。
2. Hugging Face 推出小语言模型系列 SmolLM
目前,人们对可在本地设备上运行的小语言模型越来越感兴趣。这一趋势涉及通过蒸馏或量化来压缩大模型,以及从零开始在大型数据集上训练小模型。这些方法不仅显著降低了推理成本,还提高了用户隐私,同时催生了新应用。微软的 Phi 系列、Meta 的 MobileLLM 证明,经过精心设计和训练的小模型可以取得惊人的成果。然而,这些模型的数据策划和训练细节大多未公开。
在这项工作中,来自 Hugging Face 的研究团队推出了一系列小语言模型 SmolLM,包括 135M、360M 和 1.7B 三个参数规模。评估结果表明,在测试常识推理和世界知识的各种基准测试中,SmolLM 模型在其规模类别中优于其他模型。这项研究再次证明了小语言模型可以通过在高质量数据集上的高效训练实现高性能,在规模和性能之间取得很好的平衡。
3. Lynx:一个开源的幻觉评估模型
检索增强生成(RAG)技术旨在减少大语言模型(LLM)中的幻觉。然而,LLM 仍可能产生与检索内容不符或相矛盾的信息。
为此,来自 Patronus AI 和 Contextual AI 的研究团队推出了一个最新的幻觉检测 LLM——LYNX,其能够对复杂的真实幻觉场景进行高级推理。为了评估 LYNX,他们推出了一个包含来自各种现实领域的 15000 个样本的全面幻觉评估基准 HaluBench。
实验结果显示,LYNX 在 HaluBench 上优于 GPT-4o、Claude-3-Sonnet 以及其他开源和闭源的 LLM 裁判模型。
4. FlashAttention:通过 IO 感知实现快速、内存效率高的精确注意力
由于自注意力机制在序列长度上的时间和内存复杂度是平方级的,transformer 在处理长序列时既慢又占用大量内存。尽管近似注意力方法试图通过降低计算复杂度来解决这一问题,但往往未能实现实际的加速效果。
来自斯坦福大学和纽约州立大学水牛城分校的研究团队认为,一个缺少的原则是让注意力算法具备 IO 感知能力,即考虑 GPU 内存各级之间的读写操作。因此,他们提出了一种 IO 感知的精确注意力算法 FlashAttention,其利用分块技术减少 GPU 高带宽内存(HBM)和 GPU 片上 SRAM 之间的内存读写次数。
他们分析了 FlashAttention 的 IO 复杂度,表明它需要比标准注意力更少的 HBM 访问,并且在一定范围的 SRAM 大小下是最优的。他们还将 FlashAttention 扩展到块稀疏注意力,得到了比任何现有近似注意力方法更快的近似注意力算法。


