前言
2024 年 12 月 11 日,'打造大模型时代的可信 AI'论坛在上海顺利举行。本次活动汇聚了来自上海交通大学、中国科学技术大学、中科院等多家知名学术机构及技术企业的顶尖专家,围绕人工智能(AI)的技术风险与治理挑战展开讨论,探讨如何在大模型时代打造可信 AI。
一、AI 安全治理的紧迫性与必要性
随着生成式人工智能(Generative AI)的飞速发展,AI 已融入社会生活各方面。伴随技术进步而来的深度伪造、算法偏见、隐私侵权等问题,给社会秩序及行业安全带来挑战。确保 AI 安全性,避免技术滥用,成为全球重要议题。本次论坛旨在通过学术界、产业界的深入交流,探索 AI 安全的技术路径与治理框架。
二、AI 安全治理
2.1 技术手段
上海交通大学人工智能研究院总工程师金耀辉教授在演讲中强调,安全是 AI 发展的核心问题。他提出三大技术保障手段:'训练对齐、提示引导和文本过滤'。在大模型训练中注重这些安全防护,能从源头避免 AI 产生偏见或有害内容。

对于生成式 AI,安全对齐的核心是确保输出符合伦理标准、法律及用户隐私。技术手段的不断优化和迭代,显得尤为重要。
2.2 规范管理
中国电子技术标准化研究院网安中心测评实验室副主任何延哲指出,当前 AI 安全检测多集中在内容安全层面,需建立更完善的检测体系。AI 安全检测应涵盖算力网络安全、数据安全、个人信息保护、算法模型安全等多个方面,形成全面评估框架。这有助于行业应对潜在风险,并为政策制定提供支持。

三、技术实践
3.1 深度伪造视频的主动防御与被动检测
合成图像、深度伪造视频等技术的应用,使得 AI 伪造内容普遍化。中国科学技术大学谢洪涛教授介绍了针对深度伪造视频的治理方案,可从主动防御和被动检测两大角度入手。

主动防御方面,采用双重水印技术为视频中的人脸图像加密保护,确保传播后可追踪取证。被动检测方面,基于图像级不一致性和时空身份不一致性的检测方法,可有效识别伪造视频迹象。

3.2 视觉内容安全的技术探索与应用
合合信息图像算法研发总监郭丰俊博士分享了视觉内容安全的前沿技术。随着生成式 AI 普及,视觉内容伪造手段复杂。视觉数据在传输、压缩过程中常出现质量退化,掩盖篡改痕迹。研发团队开发了篡改检测系统,能精准捕捉微小痕迹,适用于常见图像伪造及 AIGC 生成内容的复杂场景。






