活动背景
随着人工智能(AI)技术的迅猛进步,尤其是以 ChatGPT 为代表的大型语言模型技术的兴起,AI 技术已广泛渗透至各个领域。然而,AI 技术的快速发展亦伴随着一系列安全隐患的出现,如数据安全、知识产权、算法偏见、有害内容生成以及深度伪造、AI 诈骗等。这些问题不仅引起了公众的广泛关注,也对 AI 技术的健康发展和社会的和谐稳定构成了潜在威胁。全国网络安全标准化技术委员会等机构发布了相关框架和指导原则,旨在规范 AI 技术的发展和应用,降低其潜在风险。
在此背景下,由中国计算机学会计算机视觉专委会主办的《打造大模型时代的可信 AI》论坛汇聚了来自高校、研究机构、企业的专家学者,共同探讨 AI 安全领域的最新进展和未来趋势。
论坛内容
智能共生时代:平衡生成式 AI 的创新与风险
上海交通大学人工智能研究院教授金耀辉指出,大语言模型的内容安全风险多种多样,包括提示词注入、输出处理不安全、训练数据中毒、模型拒绝服务等。这些风险不仅影响模型的性能,还可能对社会造成负面影响。
为保障 LLMs 的内容安全,提出了几种安全保障手段:
- 训练对齐:通过算法和数据对模型进行微调,使其更加符合安全需求。
- 面向安全的提示引导:利用特定流程和策略引导 LLMs,激活其固有的安全属性。
- 文本过滤:通过外接模块检测有害内容,并触发处理机制。
![图片]
人工智能安全检测评估的逻辑和要点
中国电子标准院网安中心测评实验室副主任何延哲分享了人工智能安全检测评估的核心逻辑与关键要点。
人工智能安全检测评估涵盖网络信息安全、科技伦理安全、算力网络安全、数据安全与隐私保护等多个维度。我国已出台多项相关法律法规、政策文件及标准规范,为人工智能安全检测评估提供了坚实的制度保障。何延哲重点解读了《信息安全技术 机器学习算法安全评估规范》、《基于个人信息的自动化决策安全要求》等标准规范,强调了加强个人信息处理全生命周期保护、定期开展合规审计的重要性。
![图片]
面向特定人物深度伪造视频的主动防御与被动检测技术
中国科学技术大学教授谢洪涛解析了面向特定人物深度伪造视频的主动防御与被动检测技术。
深度伪造技术已在人脸图像、语音等领域实现高度逼真的伪造效果。核心技术原理如下:
- 主动防御:在内容发布前添加干扰信号,防止伪造或实现溯源。例如添加对抗攻击噪声、嵌入特定信息。
- 被动检测:在视频被恶意伪造后,利用伪造视频自身获取线索或提取特征进行检测。例如基于多模态先验知识的一致性检测、基于多层级纹理不一致性学习的深度伪造人脸检测。
![图片]
视觉内容安全技术的前沿进展与应用
合合信息图像算法研发总监郭丰俊介绍了 AI 技术在图像篡改检测方面的最新成果。
当前视觉内容安全需求日益增多,黑灰产利用伪造技术进行非法活动。通用篡改检测已落地证券、保险、银行等行业,支持证照、证书、票据等通用类篡改模型。人脸鉴伪检测产品支持换脸、生成式人脸检测。
视觉内容安全技术面临的挑战包括跨域泛化能力、纯色背景图篡改检测、质量退化导致的痕迹损失等。解决方案包括探索基于深度学习的篡改检测方法、基于区块链的内容追溯技术、基于多模态信息融合的篡改检测方法等。
制定相关标准和规范是促进内容安全系统更好落地的重要举措。
![图片]
生成式人工智能安全与治理
中国科学院自动化研究所研究员赫然博士分享了生成式人工智能安全与治理的相关内容。
生成式人工智能面临的主要安全风险包括数据泄露、隐私侵犯、内容造假等。应对建议包括:
- 建立健全监管机制,明确责任主体和监管标准。
- 加强技术研发和创新,提高安全性和可控性。
- 加强国际合作与交流,共同应对全球性挑战。
![图片]
总结
本次论坛汇聚了众多专家学者,深入探讨了 AI 安全治理的最新进展和未来趋势。AI 技术的快速发展带来了前所未有的机遇和挑战,加强 AI 安全治理、推动 AI 向善发展是行业共同的责任。通过立法、监管、前沿研究、技术实践等多层面出发,寻求有效的解决方案,将有助于构建更加安全、可信、可靠的 AI 生态系统。


