大语言模型逻辑一致性研究:测量、评估与提升
大语言模型(LLMs)已经在自然语言处理任务中展现出很强的能力,但一旦进入更依赖判断和推理的场景,逻辑不一致、偏差和幻觉问题就会变得格外显眼。这里解读的论文 Measuring, Evaluating and Improving Logical Consistency in Large Language Models,重点讨论了一个更底层也更实用的问题:模型到底有多'自洽',又该如何把这种一致性真正做上去。
研究背景
随着 LLMs 被越来越多地用在摘要评估、排序决策、事件比较这类任务中,单纯看'答得像不像'已经不够了。模型如果前后矛盾、对同一批输入换个顺序就变了判断,或者在否定关系上完全失真,实际使用时就很难让人放心。
逻辑一致性正是用来衡量这类稳定性的。它关注的不是某一次回答是否'看起来合理',而是模型在面对等价输入、顺序变化和关系否定时,能不能保持判断标准的一致。对需要结构化推理和偏好判断的任务来说,这一点尤其关键。
如何测量逻辑一致性
论文先搭了一个通用框架,把逻辑一致性拆成三个基本属性:传递性、交换性和否定不变性。这三个维度基本覆盖了成对比较任务里最容易出问题的地方。

传递性
传递性要求模型的比较结果能连起来。比如,如果它认为 A 优于 B,B 优于 C,那么通常也应该认为 A 优于 C。这个属性看上去简单,但实际非常容易被模型打破,尤其是在比较对象一多、上下文一复杂的时候。
论文给出了一个取值在 0 到 1 之间的度量,1 表示完全满足传递性。实验里能看到,项目数量一增加,模型保持传递性会明显变难。不同模型的表现差异也很大:有的模型在传递性上很强,但在别的维度上就没那么稳定。

交换性
交换性关注的是:把输入顺序换一换,模型会不会给出同样的判断。理想情况下,比较 A 和 B,应该和比较 B 和 A 只是在表述上相反,而不该因为顺序变化就出现本质性偏移。
这项指标也被归一化到 0 到 1,1 表示完全不受顺序影响。作者发现,交换性和人类偏好之间关系很紧。很多时候,交换性差并不只是'小毛病',而是模型存在明显的位置偏差,输入排布一变,判断标准也跟着跑了。

否定不变性
否定不变性则是在问:如果把一个关系取反,模型能不能保持一致的理解。比如原命题成立时,否定命题应该如何处理,模型是否还能做出合乎逻辑的判断。
不少模型在这一点上表现并不理想。它们对正向关系似乎还能勉强处理,一旦切换到否定关系,就会出现明显混乱。这说明模型对'关系的互补面'理解得还不够稳。
评估逻辑一致性
任务与数据集
论文选了三个代表性任务来做验证:
- 抽象摘要评估(SummEval)
- 文档重新排序(NovelEval)
- 时间事件排序(CaTeRS)







