活动背景:AI 技术快速发展与安全治理需求迫切
随着人工智能(AI)技术的迅猛进步,尤其是以 ChatGPT 为代表的大型语言模型技术的兴起,AI 技术已广泛渗透至各个领域。然而,AI 技术的快速发展亦伴随着一系列安全隐患的出现,如数据安全、知识产权、算法偏见、有害内容生成以及深度伪造、AI 诈骗等。这些问题不仅引起了公众的广泛关注,也对 AI 技术的健康发展和社会和谐稳定构成了潜在威胁。全国网络安全标准化技术委员会等机构发布了相关框架和指导原则,旨在规范 AI 技术的发展和应用,降低其潜在风险。
在此背景下,《打造大模型时代的可信 AI》论坛汇聚来自高校、研究机构、企业的专家学者,共同探讨 AI 安全领域的最新进展和未来趋势。
论坛内容
中国计算机学会计算机视觉专委会副秘书长潘金山博士在致辞中强调,AI 安全治理关乎技术的健康发展及社会的和谐稳定。加强 AI 安全治理,推动 AI 技术向善发展,已成为共同的责任和使命。
金耀辉:智能共生时代:平衡生成式 AI 的创新与风险
上海交通大学人工智能研究院教授金耀辉指出,大语言模型的内容安全风险包括提示词注入、输出处理不安全、训练数据中毒、模型拒绝服务等。这些风险可能对社会造成负面影响。为保障 LLMs 的内容安全,提出了训练对齐、面向安全的提示引导和文本过滤等手段。通过算法和数据微调增强模型整体安全性能,利用特定流程激活固有安全属性,并通过外接模块检测有害内容。
何延哲:人工智能安全检测评估的逻辑和要点
中国电子标准院网安中心测评实验室副主任何延哲分享了人工智能安全检测评估的核心逻辑与关键要点。他指出,我国已出台多项相关法律法规、政策文件及标准规范,为人工智能安全检测评估提供了坚实的制度保障。重点解读了《信息安全技术 机器学习算法安全评估规范》等标准规范,并强调了加强个人信息处理全生命周期保护、定期开展合规审计的重要性。
谢洪涛:面向特定人物深度伪造视频的主动防御与被动检测技术
中国科学技术大学教授谢洪涛解析了面向特定人物深度伪造视频的主动防御与被动检测技术。主动防御技术主要是在内容发布前添加干扰信号,以防止伪造或实现溯源。被动检测技术则是在人脸素材被恶意伪造后,利用伪造视频自身获取线索进行检测。研究团队提出了基于扩散模型的反演能力搜索对抗人脸、基于互相关序列嵌入水印等创新算法。
郭丰俊:视觉内容安全技术的前沿进展与应用
合合信息图像算法研发总监郭丰俊介绍了 AI 技术在图像篡改检测方面的最新成果。通用篡改检测已落地证券、保险、银行等行业,支持证照、证书、票据等通用类篡改模型。人脸鉴伪检测产品支持换脸、生成式人脸检测。文档图像篡改检测方向多次在比赛中获得第一名。针对跨域泛化能力、纯色背景图篡改检测等问题,提出了相应的解决方案和建议。


