开源工具 Monitor 揭示大模型数值比较错误，Transluce 推出 AI 可解释性方案

针对大模型在数值比较任务中出现的典型错误（如认为 9.11 大于 9.8），研究团队 Transluce 发布了名为 Monitor 的开源交互界面。该工具通过可视化语言模型的内部神经元激活模式，帮助人类理解模型为何将数字误判为日期或版本号。Monitor 利用 AI 驱动的管道自动生成神经元描述，并通过向量数据库进行语义聚类。用户可实时查看特定 token 的概率分布，识别误导性概念（如“9/11 袭击”或“圣经章节”）。通过抑制或增强相关神经元的激活值，研究者成功修正了模型的数值判断逻辑及字符计数问题。该工具旨在构建可扩展、开放的 AI 系统理解技术，推动可信 AI 标准，支持从 Llama-3.1 到 GPT-4o 等模型的内部机制分析与行为引导。

涅槃凤凰发布于 2025/2/6更新于 2026/7/2148 浏览

9.8 和 9.11 到底哪个大？这个小学生都能答对的问题却难倒了一众大语言模型，许多模型输出的结果都是「9.8 < 9.11」。这一现象揭示了当前人工智能系统在基础逻辑推理上的潜在缺陷。为什么模型会集体出错？AI 研究者们总结了很多可能的原因，比如模型会把 9.11 拆解成 9、点、11 三部分，然后拿 11 去和 8 作比较；也有人猜测，大模型会把 9.8 和 9.11 当成日期或版本号处理。

这些解释听起来都有些道理，但如果我们能够直观地「看到」模型出错的原因，那么我们对于问题的归因会更加准确，解决问题的速度也会更快。刚刚官宣的 AI 研究实验室 Transluce（字面意思是让光线穿过某物以揭示其结构）就在做这件事情。他们开发了一个名叫 Monitor 的交互界面，以帮助人类观察、理解和引导语言模型的内部计算。

透过 Monitor，我们先来看看 AI 模型为什么会觉得 9.11 比 9.8 更大。首先，让模型比较一下这两个数的大小，当然它没有意外地出错了。Monitor 提供了快捷的方式帮助我们分析其错误。将光标放在出错的位置，可以看到模型在此处预测的词的概率分布。很显然，Llama 3.1 8B 的这个版本不仅错了，而且还对自己的错误很自信。

点击一下这个错误，Monitor 开始分析模型出错的可能原因。具体来说，它会「寻找影响 bigger 这个预测结果的神经元」。之后，Monitor 会对这些神经元进行聚类，此处有 4 个聚类：粗略来看，Llama 3.1 8B 在看到 9.11 和 9.9 这两个数字文本时，首先想到的并不是单纯的数值，而是会和人类一样联想到相关的其它概念，比如 9/11 袭击和之后的恐怖袭击、《圣经》章节和诗文编号、化学化合物和分子式、日期等等。并且其中每一种「联想」都会触发不同的神经元组合。

选择其中一个展开，可以看到影响 AI 模型做出「bigger」这个判断的神经元详情。我们可以点开一个具体的神经元查看，比如这个第 2 层的 1054 号神经元。这里展示了其在接收提示词之后的正值激活情况。注意，这里的神经元描述是该团队用自己提出的一种自动化方法生成的；其中用到了一个解释器模型，它会提出一些关于数据的假设，之后再通过一个自动评分流程对这些假设进行评估。

通过分析这些神经元，我们可以洞见模型出错的根本原因：模型根本没把 9.11 当成数值，而是看成了一个日期，这样连带下来，9.9 自然也是一个日期了。于是，9 月 11 号自然就比 9 月 9 日 bigger。另外，在《圣经》中，9.11 也是比 9.8 更靠后的编号。而不管是 9/11 事件还是《圣经》，模型的训练数据中都包含大量相关的文本内容，这会影响到模型在判断这个数字时的神经元激活权重。

Monitor 还提供了进一步的检查技术，可以通过将相应激活强行设置为 0 来修正 AI 模型的行为。下面我们将对应「日期」的相关神经元的激活改成 0 看看。结果？这个 Llama 3.1 8B 还是没对，但是可以看到「bigger」的概率下降了很多（0.961→0.563），而对应正确答案的「smaller」异军突起，已经来到了 top-2 的位置。

接下来，继续操作，将关联《圣经》章节编号的神经元激活也调成 0。这一次，模型终于对了。它保留了 bigger，但将 9.9 和 9.11 的位置调换一下以遵循提问的形式。同样，它对自己的答案很有信心。而修复这个问题的代价仅仅是抑制了不到 0.2% 的 MLP 神经元。

除了比较 9.11 和 9.9 的大小，官方还提供了另外三个示例，包括修复 AI 难以数值排序的问题、引导出隐藏知识、引导故事中特定角色。其中的操作不仅包括将激活清零，也包括增强某些特定神经元以引导模型生成符合用户需求的结果。另外，用户也可以使用自己的提示词，然后基于此分析模型的思考过程。

研究人员尝试了一个 AI 领域的热门问题：Strawberry 中有几个 r？可以看到，这个 AI 模型答错了，同时也对自己的答案颇有信心。根据 Monitor 分析，Llama 3.1 8B 模型在回答这个问题时会将 Strawberry 拆分成两部分：Straw 和 berry，同时 Strawberry 还激活了与食品和佐料相关的神经元。有意思的是，即便抑制了 Monitor 找到的所有神经元激活，这个 Llama 3.1 8B 模型依然无法正确解答「Strawberry 中有几个 r」这个问题。

那我们来增强一些神经元试试。这里我们在 Monitor 中输入「Strawberry as a string made of several English letters（将 Strawberry 看作是一个由英语字母构成的字符串）」作为搜索条件，定位到了 50 个相关神经元，这里我们直接全部增强它们。这一次，Llama 3.1 8B 终于给出了正确答案。而这一次，我们执行了两项抑制（各 500 个神经元）和一项引导增强（50 个神经元），不过这些神经元的数量我们也可以自行调整。基于此，我们可以得出这样的洞见：在解答「Strawberry 中有几个 r」这样的问题时，LLM 的问题是想得太多，去分析其背后所代表的意义和事物了，而它原本只需要将其看成一个字符串即可。

那么，这个叫 Monitor 的模型到底是怎么做出来的？背后的运行机制是怎样的？Transluce 这家公司是什么来头？在一篇博客和一封公开信中，Transluce 给出了系统介绍。

Monitor 的基本构成

Monitor 采用了一套由 AI 驱动的工具，可帮助用户理解语言模型中的神经激活模式：

一个预先编译的高质量神经元描述数据库，生成自对 Llama-3.1-8B 中的所有 MLP 神经元应用 Transluce 的 AI 驱动描述 pipeline。该系统同样适用于 SAE 特征或任何其他特征集。Transluce 从神经元开始，因为它们最简单，并且已经运作得很好。他们将发布系统的代码，并期待其他人用他们自己的特征集在此基础上进行构建！
一个实时界面，用于显示给定聊天对话的重要概念。用户可以通过激活（概念触发的强度）或归因（概念对指定目标 token 的影响程度）来衡量重要性。
一个实时的人工智能检查器，它会自动显示可能是误导性线索的非预期概念的集群（例如「9 月 11 日」神经元在数字「9.11」上被触发）。

开源工具 Monitor 揭示大模型数值比较错误，Transluce 推出 AI 可解释性方案

涅槃凤凰发布于 2025/2/6更新于 2026/7/2148 浏览

Monitor 的基本构成

Monitor 采用了一套由 AI 驱动的工具，可帮助用户理解语言模型中的神经激活模式：

一个预先编译的高质量神经元描述数据库，生成自对 Llama-3.1-8B 中的所有 MLP 神经元应用 Transluce 的 AI 驱动描述 pipeline。该系统同样适用于 SAE 特征或任何其他特征集。Transluce 从神经元开始，因为它们最简单，并且已经运作得很好。他们将发布系统的代码，并期待其他人用他们自己的特征集在此基础上进行构建！
一个实时界面，用于显示给定聊天对话的重要概念。用户可以通过激活（概念触发的强度）或归因（概念对指定目标 token 的影响程度）来衡量重要性。
一个实时的人工智能检查器，它会自动显示可能是误导性线索的非预期概念的集群（例如「9 月 11 日」神经元在数字「9.11」上被触发）。