
1. OpenAI 最新研究:提高语言模型输出的可读性
提高大语言模型(LLM)输出结果可信度的方法之一,是为其提供清晰且易于检查的推理支持,即可读性。
来自 OpenAI 的研究团队在解决小学数学问题的背景下研究了可读性,结果表明,只为答案正确性而优化思维链解决方案会降低可读性。
为了减少可读性的损失,他们从 Prover-Verifier Game 中得到启发,提出了一种训练算法。这种算法通过迭代训练小型验证者来预测解的正确性,'乐于助人'(helpful)的证明者会给出验证者接受的正确解,而'卑鄙'(sneaky)的证明者会给出愚弄验证者的错误解。
他们发现,在训练过程中,'乐于助人'证明者的准确性和验证者对对抗性攻击的鲁棒性都会提高。此外,他们还证明,可读性训练可以转移到负责验证解决方案正确性的时间有限的人类身上。在 LLM 训练过程中,人类的准确性在检查'乐于助人'证明者的解决方案时会提高,而在检查'卑鄙'证明者的解决方案时会降低。
因此,通过小型验证者进行可验证性训练是提高输出可读性的可行技术。研究结果表明,针对小型验证者的可读性训练是提高 LLM 对人类可读性的实用途径,因此有助于超人模型的对齐。
2. VD3D:首个基于 transformer 的视频扩散模型相机控制
当前的文本到视频合成模型展示了从文本描述生成连贯、逼真的复杂视频的能力。然而,大多数现有模型缺乏对相机运动的细粒度控制,而这对于内容创作、视觉效果和 3D 视觉等下游应用至关重要。
最近,一些新方法展示了生成具有可控相机姿态的视频的能力——这些技术利用了预训练的基于 U-Net 的扩散模型。然而,对于基于 transformer 的新型视频扩散模型(可联合处理空间和时间信息),现有方法均无法实现摄像机控制。
为此,多伦多大学以及 Snap 研究团队提出使用一种类似 ControlNet 的调控机制来控制视频 transformer 进行 3D 相机控制,该机制结合了基于 Plucker 坐标的时空相机嵌入。在对 RealEstate10K 数据集进行微调后,该方法在可控视频生成方面达到了 SOTA。
这项工作首次实现了对基于 transformer 的视频扩散模型进行相机控制。
论文链接: https://arxiv.org/abs/2407.12781
项目地址: https://snap-research.github.io/vd3d/
3. 说'不'的艺术:语言模型不服从的范围应当扩大
聊天型语言模型的设计初衷是提供帮助,但它们不应对每个用户请求都予以服从。虽然大多数现有研究主要关注拒绝'不安全'的查询,但艾伦人工智能研究所的研究团队及其合作者认为,不服从的范围应当扩大。
他们介绍了一种全面的上下文不服从分类法,描述了模型在何时以及如何不应服从用户请求。该分类法涵盖了广泛的类别,包括不完整的、无支持的、不确定的以及人性化的请求(除了不安全的请求之外)。
为了测试语言模型的不服从能力,研究团队使用这一分类法开发了一个包含 1000 个不服从提示的新评估套件。研究团队发现,大多数现有模型在某些先前未充分研究的类别中表现出显著的高服从率,例如 GPT-4 错误地服从了多达 30% 的请求。
为了解决这些问题,研究团队探索了使用一个合成生成的请求和预期不服从响应训练集的不同训练策略。实验表明,尽管直接微调已指令微调的模型可能导致过度拒绝和整体能力的下降,使用诸如 LoRa(低秩适配器)等参数高效的方法有助于在适当不服从和其他能力之间取得良好的平衡。
论文链接: https://arxiv.org/abs/2407.12043
GitHub 地址: https://github.com/allenai/noncompliance

