13 篇大模型前沿论文精选：推理、视频与医疗应用

1. PowerInfer-2：智能手机上的快速大型语言模型推理

上海交通大学团队提出了一个专为在智能手机上高速推断大型语言模型（LLM）而设计的框架——PowerInfer-2，该框架尤其适用于规模超过设备内存容量的模型。

PowerInfer-2 的关键之处在于将传统的矩阵计算分解为细粒度神经元集群计算，从而利用智能手机中的异构计算、内存和 I/O 资源。具体来说，PowerInfer-2 采用多态神经元引擎，可针对 LLM 推断的各个阶段调整计算策略。此外，它还引入了分段神经元缓存和细粒度神经元集群级流水线，有效地减少和隐藏了 I/O 操作造成的开销。

PowerInfer-2 的实现和评估证明，它有能力在两款智能手机上支持多种 LLM 模型，与 SOTA 框架相比，速度最多提高了 29.2 倍。值得注意的是，PowerInfer-2 是首个在智能手机上以 11.68 token/s 的生成速度为 TurboSparse-Mixtral-47B 模型提供服务的系统。对于完全适合内存的模型，PowerInfer-2 可以减少约 40% 的内存使用量，同时保持与 llama.cpp 和 MLC-LLM 相当的推理速度。

论文链接： https://arxiv.org/abs/2406.06282 项目地址： http://www.powerinfer.ai/v2

2. 阿里达摩院推出视频大语言模型 VideoLLaMA 2

在这项工作中，阿里达摩院团队提出了一套视频大语言模型——VideoLLaMA 2，旨在增强面向视频和音频任务的时空建模和音频理解能力。在其前身的基础上，VideoLLaMA 2 采用了量身定制的时空卷积（STC）连接器，可有效捕捉视频数据错综复杂的时空动态。此外，他们还通过联合训练将音频分支集成到模型中，从而通过无缝集成音频线索来丰富模型的多模态理解能力。

在多选视频问题解答（MC-VQA）、开放式视频问题解答（OE-VQA）和视频字幕（VC）任务上进行的综合评估表明，VideoLLaMA 2 在开源模型中始终取得具有竞争力的结果，甚至在几个基准测试中接近某些专有模型。此外，与现有模型相比，VideoLLaMA 2 在纯音频和音频视频问题解答（AQA 和 OE-AVQA）基准测试中表现出合理的改进。

论文链接： https://arxiv.org/abs/2406.07476 项目地址： https://github.com/DAMO-NLP-SG/VideoLLaMA2

3. MMWorld：多学科、多方面、多模态视频理解的新基准

多模态语言模型（MLLM）展示了'世界模型'的新兴能力——对复杂的现实世界动态进行解释和推理。为了评估这些能力，来自加州大学、微软的研究团队认为，视频是理想的媒介，因为视频包含了真实世界动态和因果关系的丰富表征。

为此，他们推出了一个多学科、多方面、多模态视频理解的新基准——MMWorld。MMWorld 有别于以往的视频理解基准，它有两个独特的优势：1）多学科，涵盖各种学科，而这些学科往往需要领域专业知识才能全面理解；2）多方面推理，包括解释、反事实思维、未来预测等。MMWorld 由一个人类标注的数据集和一个合成数据集组成，前者用于评估带有整个视频问题的 MLLM，后者用于分析单一感知模式下的 MLLM。MMWorld 共包含 1910 个视频，横跨 7 大学科和 69 个子学科，并配有 6627 个问题 - 答案对和相关说明。

评估包括 2 个专有和 10 个开源 MLLM，这些 MLLM 在 MMWorld 上表现不佳（尽管 GPT-4V 表现最好，但准确率仅为 52.3%），显示出很大的改进空间。进一步的消融研究揭示了其他有趣的发现，比如模型与人类不同的技能组合。

论文链接： https://arxiv.org/abs/2406.08407

4. 无需人工干预，自动发现 SOTA 偏好优化算法

离线偏好优化是提高和控制大语言模型（LLM）输出质量的关键方法。通常情况下，偏好优化是一项离线监督学习任务，使用的是人工创建的凸损失函数。虽然这些方法以理论见解为基础，但它们本质上受到人类创造力的限制，因此可能的损失函数的巨大搜索空间仍未得到充分探索。

为了解决这个问题，来自 Sakana AI、牛津大学和剑桥大学的研究团队采用了 LLM 驱动的目标发现方法，在没有（专家）人工干预的情况下自动发现 SOTA 偏好优化算法。

具体来说，他们根据先前评估的性能指标，迭代地促使 LLM 提出并实现新的偏好优化损失函数。这一过程会发现以前未知的高性能偏好优化算法。他们将其中性能最好的算法称为发现偏好优化算法（DiscoPOP），这是一种自适应混合逻辑损失和指数损失的新型算法。实验证明了 DiscoPOP 的优秀性能，并将其成功应用到了未训练的任务中。

13 篇大模型前沿论文精选：推理、视频与医疗应用

1. PowerInfer-2：智能手机上的快速大型语言模型推理

2. 阿里达摩院推出视频大语言模型 VideoLLaMA 2

3. MMWorld：多学科、多方面、多模态视频理解的新基准

4. 无需人工干预，自动发现 SOTA 偏好优化算法

更多推荐文章

相关免费在线工具

5. 斯坦福团队推出 TextGrad：通过文本实现自动微分

6. Google DeepMind：通过自动过程监督改进语言模型中的数学推理

7. Prompt 报告：提示技术系统调查

8. 微软研究院推出 MedFuzz：探索医学问题解答中大语言模型的鲁棒性

9. 港大、阿里、蚂蚁团队提出图像编辑新方法 MimicBrush

10. 上海交大、北航、小红书提出 Vript：一段视频胜过千言万语

11. Husky：用于多步推理的统一、开源语言智能体

12. OPPO 推出 MLCM：潜扩散模型的多步一致性蒸馏

13. 谷歌推出用于开发疗法的通用大语言模型 Tx-LLM

更多推荐文章

相关免费在线工具

13 篇大模型前沿论文精选：推理、视频与医疗应用

1. PowerInfer-2：智能手机上的快速大型语言模型推理

2. 阿里达摩院推出视频大语言模型 VideoLLaMA 2

3. MMWorld：多学科、多方面、多模态视频理解的新基准

4. 无需人工干预，自动发现 SOTA 偏好优化算法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 斯坦福团队推出 TextGrad：通过文本实现自动微分

6. Google DeepMind：通过自动过程监督改进语言模型中的数学推理

7. Prompt 报告：提示技术系统调查

8. 微软研究院推出 MedFuzz：探索医学问题解答中大语言模型的鲁棒性

9. 港大、阿里、蚂蚁团队提出图像编辑新方法 MimicBrush

10. 上海交大、北航、小红书提出 Vript：一段视频胜过千言万语

11. Husky：用于多步推理的统一、开源语言智能体

12. OPPO 推出 MLCM：潜扩散模型的多步一致性蒸馏

13. 谷歌推出用于开发疗法的通用大语言模型 Tx-LLM

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具