大模型（LLM）前沿研究论文合集：检索增强、压缩与评估

大模型（LLM）前沿研究论文合集

近年来，大型语言模型（LLMs）在自然语言处理领域取得了突破性进展，但在部署效率、知识准确性、多模态应用及可持续性方面仍面临诸多挑战。本文精选并整理了五篇具有代表性的最新研究论文，涵盖自适应检索增强生成、模型压缩算法、零样本学习、部署经济学以及自动化评估策略，旨在为技术从业者提供全面的技术参考。

1. CTRLA: 通过探针引导控制的自适应检索增强生成

论文标题: CTRLA: Adaptive Retrieval-Augmented Generation via Probe-Guided Control 作者: Huanshuo Liu 等，华为 Noah's Ark Lab

背景与挑战

检索增强生成（RAG）通过引入外部知识有效缓解了 LLM 的幻觉问题。然而，现有的自适应 RAG（ARAG）方法主要依赖表面语言反馈或概率指标来决定是否需要检索，这往往导致决策不可靠、成本高昂且响应次优。此外，直接感知 LLM 的知识边界极具挑战性，而基于微调的方法受限于数据质量。

核心方案：CTRLA

CTRLA 提出了一种基于探针引导控制的自适应 RAG 框架，首次深入探讨 LLM 的内部状态以优化检索决策。该框架包含两个关键组件：

诚实性探针 (Honesty Probe)：通过操纵 LLM 的表示层来调节其行为，使模型输出与其真实的自我认知对齐，减少虚构信息的生成。
信心监控 (Confidence Monitoring)：利用信心探针实时监控 LLM 的内部状态和置信度水平，作为触发检索的必要条件。

工作流程

训练阶段：准备截断句子的诚实性和置信度声明，提取句子最后一个词的表示，使用主成分分析（PCA）降维后训练探针。此过程无需微调 LLM，仅需不到 1 分钟。
推理阶段：
- 诚实控制：在生成过程中线性组合调整 LLM 各层表示，确保输出更诚实。
- 置信度评估：监控每个词的置信度，若低于阈值则标记为不确定并触发检索。
- 查询构建：采用上下文增强查询（CAQ）和目标验证查询（TVQ）策略优化搜索，减少噪音。

实验表明，CTRLA 在多个基准测试上优于现有 ARAG 方法，证明了内部状态干预的有效性。

2. 压缩大型语言模型：使用低秩和低精度分解方法

论文标题: Compressing Large Language Models using Low Rank and Low Precision Decomposition 作者: Rajarshi Saha 等，斯坦福大学

背景与挑战

前代 LLM 体积庞大，难以部署在内存受限的边缘设备上。如何在保持性能的同时显著降低计算和存储需求是当前的关键问题。

核心方案：CALDERA

CALDERA 是一种新的训练后 LLM 压缩算法，利用权重矩阵 W 的固有低秩结构。其核心思想是将每一层的权重矩阵近似表示为 $W \approx Q + LR$，其中 $L$ 和 $R$ 是低秩因子，$Q$ 是量化后的主干。所有条目均进行低精度量化。

技术细节

优化目标：将问题表述为优化问题 $\min_{Q,L,R} ||Q + LR - W||_F^2$，其中 $X$ 为校准数据。
理论保证：建立了带秩约束的回归框架，推导了近似误差的理论上限。
性能表现：在每参数少于 2.5 比特的范围内，压缩后的 Llama-2 7B/70B 和 Llama-3 8B 模型性能超过了现有的训练后压缩技术。

该算法不仅提升了边缘部署的可行性，还结合了环境意识工具（如 mlco2）来评估碳足迹，促进了绿色 AI 的发展。

3. 通过 LLM 知识转移增强零样本面部表情识别

论文标题: Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer : Zengqun Zhao 等，伦敦玛丽女王大学

大模型（LLM）前沿研究论文合集：检索增强、压缩与评估