8 篇必读的大模型前沿论文

清华、智谱团队推出 LongCite：让 LLM 在长上下文问答中生成精细引用

尽管目前的长上下文大语言模型（LLM）在回答用户基于大量文本的问题时表现出了强大的能力，但由于其回答中缺乏引用（citation），使得用户很难验证，这导致了人们对其潜在幻觉的可信度的担忧。

在这项工作中，来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答，从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite，这是一种自动基准，用于评估当前 LLM 在带引用的长上下文问答（LQAC）中的性能，显示出相当大的改进空间。

为此，他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF（Coarse to Fine），并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后，他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B，成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。

LongBench-Cite 上的评估结果表明，他们训练的模型在引用质量方面达到了 SOTA，超过了包括 GPT-4o 在内的先进专有模型。

论文链接： https://arxiv.org/abs/2409.02897 GitHub 地址： https://github.com/THUDM/LongCite

LongLLaVA：首个混合 Mamba 和 Transformer 的多模态大语言模型

扩展多模态大语言模型（MLLM）的长上下文能力对于视频理解、高分辨率图像理解和多模态智能体（agent）至关重要。这涉及一系列系统优化工作，包括模型架构、数据构建和训练策略，尤其要解决图像越多性能越差、计算成本越高等难题。

在这项工作中，来自香港中文大学、深圳大数据研究院的研究团队，将模型架构调整为 Mamba 和 Transformer 模块的混合体，在数据构建时考虑了多个图像之间的时间和空间依赖关系，并采用了渐进式训练策略。他们发布的 LongLLaVA（Long-Context Large Language and Vision Assistant）模型是第一个混合 MLLM，在效率和效果之间取得了更好的平衡。

LongLLaVA 不仅在各种基准测试中取得了具有竞争力的结果，而且还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千幅图像，为各种任务展示了广阔的应用前景。

论文链接： https://arxiv.org/abs/2409.02889 GitHub 地址： https://github.com/FreedomIntelligence/LongLLaVA

OLMoE：100% 开放的混合专家语言模型

来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者，推出了一个完全开放的 SOTA 语言模型 OLMoE，它利用了稀疏混合专家（MoE）机制。

OLMoE-1B-7B 拥有 70 亿参数，但每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练，并进一步创建了 OLMoE-1B-7B-Instruct。

他们的模型在性能上超越了所有具有相似激活参数的现有模型，甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 这样的大模型。

他们展示了关于 MoE 训练的各种实验，分析了该模型中的路由机制，显示出高度的专业化，并将他们工作的所有方面开源，包括模型权重、训练数据、代码和日志。

论文链接： https://arxiv.org/abs/2409.02060 GitHub 地址： https://github.com/allenai/OLMoE

LongRecipe：扩展 LLM 上下文窗口的高效训练策略

大语言模型（LLM）在处理长上下文任务时面临巨大挑战，这是由于它们在预训练期间有效上下文窗口大小有限，这限制了它们在扩展序列上的泛化能力。同时，通过后训练扩展 LLM 的上下文窗口非常耗费资源。

为了解决这一问题，来自新加坡国立大学的研究团队及其合作者提出了一种用于扩展 LLM 上下文窗口的高效训练策略 LongRecipe，包括影响性标记分析、位置索引转换和训练优化策略。

8 篇必读的大模型前沿论文

清华、智谱团队推出 LongCite：让 LLM 在长上下文问答中生成精细引用

LongLLaVA：首个混合 Mamba 和 Transformer 的多模态大语言模型

OLMoE：100% 开放的混合专家语言模型

LongRecipe：扩展 LLM 上下文窗口的高效训练策略

更多推荐文章

相关免费在线工具

昆仑万维推出可播放音乐的 FLUX

VIDEOLLAMB：采用递归记忆桥的长上下文视频理解

LinFusion：1 个 GPU，1 分钟，16K 图像

由 LLM 导演的组合式 3D 感知视频生成

更多推荐文章

相关免费在线工具

8 篇必读的大模型前沿论文

清华、智谱团队推出 LongCite：让 LLM 在长上下文问答中生成精细引用

LongLLaVA：首个混合 Mamba 和 Transformer 的多模态大语言模型

OLMoE：100% 开放的混合专家语言模型

LongRecipe：扩展 LLM 上下文窗口的高效训练策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

昆仑万维推出可播放音乐的 FLUX

VIDEOLLAMB：采用递归记忆桥的长上下文视频理解

LinFusion：1 个 GPU，1 分钟，16K 图像

由 LLM 导演的组合式 3D 感知视频生成

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具