清华、智谱团队推出 LongCite:让 LLM 在长上下文问答中生成精细引用
尽管目前的长上下文大语言模型(LLM)在回答用户基于大量文本的问题时表现出了强大的能力,但由于其回答中缺乏引用(citation),使得用户很难验证,这导致了人们对其潜在幻觉的可信度的担忧。
在这项工作中,来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答,从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite,这是一种自动基准,用于评估当前 LLM 在带引用的长上下文问答(LQAC)中的性能,显示出相当大的改进空间。
为此,他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF(Coarse to Fine),并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后,他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B,成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。
LongBench-Cite 上的评估结果表明,他们训练的模型在引用质量方面达到了 SOTA,超过了包括 GPT-4o 在内的先进专有模型。
论文链接: https://arxiv.org/abs/2409.02897 GitHub 地址: https://github.com/THUDM/LongCite
LongLLaVA:首个混合 Mamba 和 Transformer 的多模态大语言模型
扩展多模态大语言模型(MLLM)的长上下文能力对于视频理解、高分辨率图像理解和多模态智能体(agent)至关重要。这涉及一系列系统优化工作,包括模型架构、数据构建和训练策略,尤其要解决图像越多性能越差、计算成本越高等难题。
在这项工作中,来自香港中文大学、深圳大数据研究院的研究团队,将模型架构调整为 Mamba 和 Transformer 模块的混合体,在数据构建时考虑了多个图像之间的时间和空间依赖关系,并采用了渐进式训练策略。他们发布的 LongLLaVA(Long-Context Large Language and Vision Assistant)模型是第一个混合 MLLM,在效率和效果之间取得了更好的平衡。
LongLLaVA 不仅在各种基准测试中取得了具有竞争力的结果,而且还保持了高吞吐量和低内存消耗。特别是,它可以在单个 A100 80GB GPU 上处理近千幅图像,为各种任务展示了广阔的应用前景。
论文链接: https://arxiv.org/abs/2409.02889 GitHub 地址: https://github.com/FreedomIntelligence/LongLLaVA
OLMoE:100% 开放的混合专家语言模型
来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者,推出了一个完全开放的 SOTA 语言模型 OLMoE,它利用了稀疏混合专家(MoE)机制。
OLMoE-1B-7B 拥有 70 亿参数,但每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练,并进一步创建了 OLMoE-1B-7B-Instruct。
他们的模型在性能上超越了所有具有相似激活参数的现有模型,甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 这样的大模型。
他们展示了关于 MoE 训练的各种实验,分析了该模型中的路由机制,显示出高度的专业化,并将他们工作的所有方面开源,包括模型权重、训练数据、代码和日志。
论文链接: https://arxiv.org/abs/2409.02060 GitHub 地址: https://github.com/allenai/OLMoE
LongRecipe:扩展 LLM 上下文窗口的高效训练策略
大语言模型(LLM)在处理长上下文任务时面临巨大挑战,这是由于它们在预训练期间有效上下文窗口大小有限,这限制了它们在扩展序列上的泛化能力。同时,通过后训练扩展 LLM 的上下文窗口非常耗费资源。
为了解决这一问题,来自新加坡国立大学的研究团队及其合作者提出了一种用于扩展 LLM 上下文窗口的高效训练策略 LongRecipe,包括影响性标记分析、位置索引转换和训练优化策略。


