大语言模型安全概述：风险、挑战与防护体系

大语言模型在提升智能能力的同时带来安全风险。分析数据、预训练、对齐及推理四个阶段的风险成因，涵盖有用性、无害性、诚实性（3H）目标。介绍安全测评、攻击、识别、防护四大研究方向，包括红队测试、越狱攻击、护栏技术等。强调构建安全底座对实现可持续人工智能发展的必要性，呼吁解决理论障碍以应对人机共生挑战。

墨染流年发布于 2025/2/7更新于 2026/4/202 浏览

引言

2022 年底以来，以 ChatGPT 为代表的大模型飞速发展，正在成为驱动新质生产力发展的新动能、人类探索未知的新工具。在显著提升人工智能（Artificial Intelligence, AI）模型通用理解和生成能力的同时，也带来了前所未有的安全风险。

大模型的能力与风险

生成式大模型因其强大的智能能力和巨大的应用潜力吸引了众多研究者和企业的关注。从智能能力的角度来看，研究人员观测到：当训练数据和参数规模持续增长，超过某个阈值的时候，模型能力会突然跃升，出现'智能涌现'的拐点。OpenAI 的技术报告显示，GPT-4 在众多专业和学术考试中均展现出了人类级别的表现。2024 年 Sora 的发布，更将 AI 的多媒体生成能力推向了新的高度。《自然》（Nature）的一则 News Feature 文章援引 AI21 Lab 设计的 150 万人的对抗性图灵测试结果，证明用户已无法区分与之对话的是人类还是 AI，并因此主张大模型在形式上已通过了图灵测试。尽管当前的大模型还没有实现通用人工智能（Artificial General Intelligence, AGI），且关于图灵测试是否合理以及 AGI 的最终实现方案和具体时间点尚有许多争议，各界却基本认同，人类正在沿着正确的方向推进 AGI 的发展。

从应用角度看，大模型正在快速成为类似于数字化时代'数据库'这样的智能化时代的通用底座。一方面，各类定制化的 GPTs 蓬勃发展，新一代智能应用（AI APP）方兴未艾，大模型赋能的智能体（Agent）的应用范围不断扩大，多智能体协同的研究百花齐放，对数字网络空间的应用形态及其演变都将产生极为深远的影响；另一方面，大模型的应用边界也在快速从数字空间向物理空间扩展，具备了智能化的外部工具使用、自动控制能力，并通过与机器人的结合，展现了物理世界的具身智能潜力。

大模型面对的安全风险前所未有，模型的通用性、潜在的主体地位以及应用的深度与广度，也都将进一步放大其危害程度。包括两位图灵奖得主 Geoffrey Hinton、Yoshua Bengio 和 DeepMind 的 CEO Demis Hassabis、OpenAI 的 CEO Sam Altman 在内的产学两界领军人物联名发出的 AI 风险声明中，更将 AI 可能带来的'毁灭性'的风险，上升到了与流行病以及核战争相提并论的高度。与之相呼应的是，生物安全专家警告说：聊天机器人可能会使恐怖分子更容易发动像 1918 年爆发的流感那样致命的流行病。在 2023 年底《自然》杂志预测的 2024 年的重大科学事件中，GPT-5 的发布以及联合国人工智能高级别咨询机构将发布的 AI 监管相关报告位列其中，反映了全球对协调 AI 发展与安全的重大关切。毫无疑问，促使大模型遵循人类价值观、服从人类意图、规避各类风险，并保障数字和物理空间的应用安全，实现有用性（Helpful）、无害性（Harmless）和诚实性（Honest），即 3H 多目标的平衡，已经成为亟待解决的世界难题之一。

3H 目标：有用性（Helpful）、无害性（Harmless）、诚实性（Honest）

安全风险成因

大模型特有的预训练、微调、上下文、提示、思维链（Chain of Thought, CoT）等新的学习范式，使其安全具有了与传统 AI 安全不同的许多新特点，面临诸多新挑战。大模型安全风险的成因存在很多的共性，既可以是来自各类训练数据的缺陷或技术的局限性等模型内因，也可以是利用新型学习范式的恶意使用或蓄意攻击等外因。从大模型的生命周期着眼，其成因可以被大体分解为数据、预训练、人类价值观对齐及推理 4 个阶段。

大模型四个阶段：数据准备、预训练、人类价值观对齐（微调）、推理

1. 数据准备阶段成因

生成式模型需要大规模的训练数据，数据的规模同模型能力息息相关。新的大模型如 GPT-4、LLaMA 3 等训练数据规模动辄十几万亿词元（Token），内容包括维基百科、电子书籍、网络数据等。多源数据中常常会包含与人类价值观不一致或彼此冲突的内容，侦探小说、法律文件等电子书籍中也会存在无法合理去除的有害内容，或去除后反而会严重影响模型'辨别善恶'的能力。网络数据还会存在明显的数据偏执、事实偏颇等问题，也会有大量难以检测辨别的 AI 生成的、未经核实的内容，导致模型学习到的知识本身产生了错误，容易生成价值观扭曲、事实歪曲或未经核实的内容。这一由数据质量带来的问题在各类需要数据的微调、强化学习等环节普遍存在，也可能进一步加剧错误的传播，误导模型的发展方向。

此外，数据投毒（Data Poisoning）是此阶段的重要风险。攻击者可以在训练数据集中注入特定样本，诱导模型在特定触发条件下输出有害信息。由于大模型通常采用无监督或自监督学习，清洗所有潜在污染数据极其困难，这可能导致模型在上线后表现出不可预测的行为偏差。

2. 预训练模型阶段成因

当前大语言模型主要基于 Google 提出的 Transformer 模型，采用自监督的方式进行训练。训练时根据已有前文，预测下一个词，本质上仍然遵循马尔可夫假设。这使得大模型学习到的知识具有显著的概率特性，生成内容具有不确定性、不可控性等特征，且缺乏可解释性。研究人员发现，在部分情况下模型学习到的不是语料中事实知识，而是一种语言模型目的导向的、根据标签类别的差异和样本的分布顺序得到的语言生成能力，增加了大模型出现幻觉现象的风险。类似地，从原理上也就无法避免产生各类有害、不实信息。训练过程的目标与后续对齐过程目标的冲突，也容易导致模型过于强调遵循有用性而讨好奉承（Sycophancy）用户，忽略了输出内容的安全性和真实性。

Transformer 架构中的注意力机制虽然增强了长文本理解能力，但也引入了上下文窗口限制下的信息泄露风险。如果训练数据中包含敏感隐私信息，模型可能在推理时通过记忆效应将其复现，造成隐私泄露。同时，模型参数的黑盒性质使得内部知识表示难以被审计，增加了安全评估的难度。

大语言模型安全概述：风险、挑战与防护体系

引言

大模型的能力与风险

3H 目标：有用性（Helpful）、无害性（Harmless）、诚实性（Honest）

安全风险成因

1. 数据准备阶段成因

2. 预训练模型阶段成因

更多推荐文章

相关免费在线工具

3. 模型指令遵循和价值观对齐阶段成因

4. 大模型推理阶段成因

安全研究进展

1. 安全测评

2. 安全攻击

3. 风险识别

4. 安全防护

总结

大语言模型安全概述：风险、挑战与防护体系

引言

大模型的能力与风险

3H 目标：有用性（Helpful）、无害性（Harmless）、诚实性（Honest）

安全风险成因

1. 数据准备阶段成因

2. 预训练模型阶段成因

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 模型指令遵循和价值观对齐阶段成因

4. 大模型推理阶段成因

安全研究进展

1. 安全测评

2. 安全攻击

3. 风险识别

4. 安全防护

总结