大模型时代的可信 AI 与安全治理新路径

AI 安全治理：产学研共话可信 AI 未来

随着以 ChatGPT 为代表的 AI 大语言模型技术的飞速发展，数据安全、知识产权、算法偏见和有害内容生成等大语言模型的内容安全问题日益凸显。如何确保 AI 大模型在生成内容的过程中遵循安全规范，成为业界关注的焦点。

上海交通大学人工智能研究院教授金耀辉指出，安全是一个抽象的概念，而安全对齐的过程则是一个从抽象到具体的模拟过程。通过这些手段，我们可以确保 AI 大模型在训练过程中就能够遵循安全规范，从而避免潜在的安全风险。

金耀辉教授提出'训练对齐、提示引导和文本过滤'三大安全保障手段，为 AI 安全治理这一问题的解决提供了新思路。

训练对齐是指在大模型训练过程中，通过引入安全相关的训练数据和优化算法，使模型能够学习到安全规范。提示引导则是在模型生成内容的过程中，通过添加安全相关的提示信息，引导模型生成符合安全规范的内容。文本过滤则是在模型生成内容后，通过特定的算法对内容进行过滤，以确保生成的内容不包含有害或敏感信息。

与此同时，中国电子标准院网安中心测评实验室副主任何延哲着重指出了规范标准在 AI 安全治理中的核心地位。他认为当前的人工智能安全检测主要聚焦于内容安全层面，且检测方法相对单一，缺乏全面性。

除了技术手段外，规范管理也是确保 AI 安全的重要手段。全国网络安全标准化技术委员会发布的《人工智能安全治理框架》为 AI 安全治理提供了重要的指导和参考。该框架从多个维度出发，构建了全面的 AI 安全治理体系，包括数据安全、算法安全、应用安全等方面。通过制定和实施这些规范标准，我们可以有效地降低 AI 技术的安全风险，推动 AI 技术的健康发展。

此前，中国信息通信研究院携手科技企业，共同编制了《生成式人工智能个人信息保护技术要求》系列标准，为 AI 时代的个人信息保护筑起坚固防线。此举不仅为用户个人信息的权益保护提供了有力保障，也为企业在 AI 研发过程中降低了不确定性，促进了行业的健康有序发展。

《生成式人工智能个人信息保护技术要求》系列标准覆盖了生成式人工智能的设计、训练与应用三个阶段，主要围绕总则、隐私声明告知、训练数据构建、模型规制控制、供应链保障、二次开发管理、输出阶段管理、个人权利响应，共计从八个方面提出个人信息保护指引。

技术实践：让伪造痕迹无所遁形

随着 AI 技术的不断发展，合成图像伪造风险日益凸显。以 Open AI 最新推出的 AI 视频生成模型 Sora 为例，这类 AI 工具在给图像视频行业带来革新的同时，也引发了合成图像伪造的风险。

中国科学技术大学教授谢洪涛以特定人物深度伪造视频为研究对象，从主动防御和被动检测两个视角分享了具体治理方案。

被动检测方面，谢洪涛教授则介绍了图像级不一致性和时空身份不一致性检测技术。这些技术可以在视频传播或使用后评估其真实性，通过检测视频中的细微差异来识别出伪造的内容。这些技术的出现，无疑为打击合成图像伪造提供了有力的武器。

除视频图像外，当前文档类图像篡改检测同样面临诸多挑战，如跨域泛化检测性能低下、纯色背景篡改检测准确率较低等问题。大模型技术的出现为 AI 视觉安全的发展创造了新的可能，也为应对这些挑战提供了契机。

比方说文档类图像可能来自不同的设备、不同的拍摄环境，甚至不同的文件格式。这种多样性使得跨域泛化成为一项艰巨的任务，传统的检测方法可能在某些特定场景下表现良好，但在面对其他场景时则可能失效；在某些情况下，文档类图像可能具有纯色背景，如证件照或合同文件，纯色背景使得篡改痕迹更加难以察觉，因为篡改者可以通过调整颜色、亮度等参数来掩盖篡改痕迹。

合合信息图像算法研发总监郭丰俊透露，团队依托先进的数据驱动神经网络模型，成功研发出高效的图像篡改检测技术方案。该技术方案擅长捕捉篡改过程中留下的微妙线索，能够识别多种篡改手法。

智能文档处理技术覆盖了图像预处理、解析识别到 AI 安全等文档图像处理全生命周期。

此前，基于深度学习的图像篡改检测方法推出了'PS 篡改检测'技术。该技术利用'多尺度特征提取模型'进行图像篡改检测及定位，让 AI 准确识别出图片篡改的不同类型并进行针对性地处理。例如，在身份证检测场景中，篡改检测准确率超 99%。

高精度：基于深度学习的算法能够捕捉到图像中的细微差异，实现高精度的篡改检测。
广泛适用性：支持多种篡改方式的检测，包括复制粘贴、拼接、擦除、调色等。
高效性：处理速度快，能够在短时间内完成大量图片的篡改检测。
可视化展示：以热力图等形式展示篡改区域和篡改置信度，便于用户直观理解。

该图像篡改检测技术利用先进的深度学习和计算机视觉算法，能够精准分析图像的特征、纹理和结构，从而识别出多种形式的篡改，不仅能够应用于多种截图、转账记录、交易记录、聊天记录等自然场景，还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假，基于空域与频域关系建模，利用多维度特征来分辨真实图片和生成式图片的细微差异，能够更准确地判断图片是否由 AI 生成，克服了生成式图片与真实图片相似度高的问题。

中国科学院自动化研究所研究员、IEEE/IAPR Fellow 赫然博士从深度合成技术出发，详细分析了虚拟身份、身份重演和人脸驱动三种合成技术类型。他指出，深度合成技术的深入研究为鉴别提供了线索，例如模型指纹线索、图像拼接线索和时序闪烁线索等。这些线索可以形成多模态多线索的鉴伪方法，有助于我们更有效地识别出伪造的内容。

结语

面对 AI 技术的快速发展和潜在风险，加强行业内部自律、从源头做好安全措施是守护 AI 健康成长的第一道防线。随着 AI 技术的不断发展和应用领域的不断拓展，AI 安全治理将面临更加复杂和多元的挑战。通过汇聚来自不同领域的专家和学者，共同探讨 AI 安全领域的最新进展和挑战，为 AI 安全治理提供了新的思路和解决方案。

大模型时代的可信 AI 与安全治理新路径

AI 安全治理：产学研共话可信 AI 未来

技术实践：让伪造痕迹无所遁形

结语

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

大模型时代的可信 AI 与安全治理新路径

AI 安全治理：产学研共话可信 AI 未来

技术实践：让伪造痕迹无所遁形

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具