一、活动背景:AI 技术快速发展与安全治理需求迫切
随着人工智能(AI)技术的迅猛进步,尤其是以 ChatGPT 为代表的大型语言模型技术的兴起,AI 技术已广泛渗透至各个领域。然而,AI 技术的快速发展亦伴随着一系列安全隐患的出现,如数据安全、知识产权、算法偏见、有害内容生成以及深度伪造、AI 诈骗等。这些问题不仅引起了公众的广泛关注和深切忧虑,也对 AI 技术的健康发展和社会的和谐稳定构成了潜在威胁。全国网络安全标准化技术委员会等机构亦发布了相关框架和指导原则,旨在规范 AI 技术的发展和应用,降低其潜在风险。同时,学术界和工业界也在积极探索 AI 安全治理的途径,从立法、监管、前沿研究、技术实践等多个层面出发,寻求有效的解决方案。
在此背景下,由中国计算机学会计算机视觉专委会主办,合合信息承办,中国运筹学会数学与智能分会协办的《打造大模型时代的可信 AI》论坛应时而生。该论坛旨在汇聚来自高校、研究机构、企业的专家学者,共同探讨 AI 安全领域的最新进展和未来趋势,为 AI 技术的健康发展提供有益的思路和建议。
二、论坛内容
论坛伊始,中国计算机学会计算机视觉专委会副秘书长潘金山博士发表致辞。他提到,在大模型时代,AI 技术正以前所未有的速度改变着生活和工作方式。随着 AI 技术的广泛应用,其安全性问题也日益凸显,成为制约 AI 技术进一步发展的重要因素。潘金山博士强调,AI 安全治理不仅关乎技术的健康发展,更关乎社会的和谐稳定。加强 AI 安全治理,推动 AI 技术向善发展,已成为共同的责任和使命。
金耀辉:智能共生时代:平衡生成式 AI 的创新与风险
上海交通大学人工智能研究院教授、总工程师金耀辉指出,大语言模型的内容安全风险多种多样,包括提示词注入、输出处理不安全、训练数据中毒、模型拒绝服务等。这些风险不仅影响模型的性能,还可能对社会造成负面影响。例如,三星员工违规使用 ChatGPT 导致机密资料外泄,新闻网站 CNET 使用 LLMs 生成文章却包含严重事实错误,这些案例都为我们敲响了警钟。
为保障 LLMs 的内容安全,金耀辉提出了几种安全保障手段。首先是训练对齐,通过算法和数据对模型进行微调,使其更加符合安全需求。此外,还有面向安全的提示引导和文本过滤等方法。提示引导利用特定流程和策略引导 LLMs,进一步激活其固有的安全属性;而文本过滤则通过外接模块检测有害内容,并触发处理机制,防止有害内容的产生和传播。
何延哲:人工智能安全检测评估的逻辑和要点
中国电子标准院网安中心测评实验室副主任何延哲就人工智能安全检测评估的核心逻辑与关键要点进行了分享。
何延哲首先强调了人工智能安全检测评估的背景与必要性。随着人工智能技术的迅猛发展,其带来的安全风险也日益凸显,涵盖网络信息安全、科技伦理安全、算力网络安全、数据安全与隐私保护等多个维度。针对这些风险,何延哲深入剖析了当前人工智能安全检测评估的方法与思路。他指出,我国已出台多项相关法律法规、政策文件及标准规范,为人工智能安全检测评估提供了坚实的制度保障。
在分享中,何延哲特别强调了基于人工智能相关标准规范的安全检测评估机制的重要性。他详细解读了《信息安全技术 机器学习算法安全评估规范》、《基于个人信息的自动化决策安全要求》等标准规范,并指出这些规范为人工智能安全检测评估提供了明确的指导与依据。此外,他还强调了加强个人信息处理全生命周期保护、定期开展合规审计、采取加密等措施保障个人信息安全的重要性。
谢洪涛:面向特定人物深度伪造视频的主动防御与被动检测技术
中国科学技术大学教授谢洪涛带来了一场关于面向特定人物深度伪造视频的主动防御与被动检测技术的深度解析。
谢洪涛首先介绍了深度伪造技术的背景及其发展现状。他指出,随着深度学习技术的飞速发展,深度伪造技术已经能够在人脸图像、语音等领域实现高度逼真的伪造效果,这无疑给个人隐私、国家安全等方面带来了前所未有的挑战。随后,谢教授详细阐述了主动防御与被动检测技术的核心原理。主动防御技术主要是在内容发布前添加一定程度的干扰信号,以防止伪造或即便伪造也能够顺利溯源。而被动检测技术则是在人脸素材被恶意伪造后,利用伪造视频自身获取线索或提取特征进行检测。
在主动防御方面,谢教授介绍了通过添加对抗攻击噪声、嵌入特定信息等方式,实现对特定人物视频图像的主动干扰和主动取证。在被动检测方面,谢教授重点介绍了基于多模态先验知识的一致性检测、基于多层级纹理不一致性学习的深度伪造人脸检测等技术。此外,谢洪涛教授还分享了其研究团队在主动防御与被动检测技术方面所取得的最新研究成果,如基于扩散模型的反演能力搜索对抗人脸、基于互相关序列嵌入水印等。
郭丰俊:视觉内容安全技术的前沿进展与应用
合合信息图像算法研发总监郭丰俊分享了 AI 技术在图像篡改检测方面的最新成果。
郭丰俊指出,随着 AI 技术的不断发展,伪造技术也在不断进步,这使得伪造内容变得更加难以识别。黑灰产利用这些技术进行非法活动,给社会带来了极大的危害。因此,企业、政府等对于视觉内容安全的需求变得越来越迫切。合合信息的通用篡改检测目前已经落地证券、保险、银行、零售等行业,同时支持证照、证书、票据、截图、扫描文档等通用类的篡改模型。另外一个人脸鉴伪检测产品也已经落地,支持换脸、生成式人脸检测等。
在谈到视觉内容安全技术的挑战时,郭丰俊列举了当前技术面临的主要问题,包括跨域泛化能力、纯色背景图篡改检测、质量退化导致的篡改痕迹损失以及检出精度与误检率的矛盾等。他提到,随着深度学习技术的不断发展,越来越多的研究者开始探索基于深度学习的篡改检测方法。此外,他还介绍了基于区块链的内容追溯技术、基于多模态信息融合的篡改检测方法等前沿研究方向。
赫然:生成式人工智能安全与治理
中国科学院自动化研究所研究员、IEEE/IAPR Fellow 赫然博士的分享加深了对人工智能鉴别与合成技术之间博弈的认识。
赫然博士首先介绍了生成式人工智能的基本概念和发展历程。他强调,生成式人工智能作为人工智能的一个重要分支,已经取得了显著的进步。然而,随着其应用的日益广泛,安全和治理问题也日益凸显。赫然博士指出,生成式人工智能面临的主要安全风险包括数据泄露、隐私侵犯、内容造假等。为了应对这些挑战,赫然博士提出了一系列建议。他强调,应建立健全的生成式人工智能监管机制,明确责任主体和监管标准。同时,加强技术研发和创新,提高生成式人工智能的安全性和可控性。此外,还应加强国际合作与交流,共同应对生成式人工智能带来的全球性挑战。
三、回顾总结
本次直播内容涵盖了 AI 安全治理的多个维度。参会者不仅了解了最新的 AI 技术知识,更对 AI 安全治理有了更深入的认识。AI 技术的快速发展带来了前所未有的机遇和挑战,加强 AI 安全治理、推动 AI 向善发展是行业共同的责任。与会者看到了专家学者们在 AI 安全治理方面所做出的努力和取得的成果,对 AI 技术的未来发展充满了信心和期待。相信在他们的共同努力下,AI 技术一定会更加安全、可信、可靠地服务于人类社会。


