跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

AI 安全治理与生成式人工智能风险应对技术分享

AI 安全治理面临数据泄露、深度伪造等风险。论坛汇聚专家探讨大模型内容安全、检测评估逻辑及主动防御技术。金耀辉提出训练对齐与提示引导;何延哲强调标准规范与合规审计;谢洪涛解析深度伪造视频攻防;郭丰俊展示视觉篡改检测应用;赫然建议完善监管机制。会议旨在推动 AI 向善发展,构建可信 AI 生态。

PhpPioneer发布于 2026/3/29更新于 2026/6/615 浏览
AI 安全治理与生成式人工智能风险应对技术分享

活动背景:AI 技术快速发展与安全治理需求迫切

随着人工智能(AI)技术的迅猛进步,尤其是以 ChatGPT 为代表的大型语言模型技术的兴起,AI 技术已广泛渗透至各个领域。然而,AI 技术的快速发展亦伴随着一系列安全隐患的出现,如数据安全、知识产权、算法偏见、有害内容生成以及深度伪造、AI 诈骗等。这些问题不仅引起了公众的广泛关注,也对 AI 技术的健康发展和社会和谐稳定构成了潜在威胁。全国网络安全标准化技术委员会等机构发布了相关框架和指导原则,旨在规范 AI 技术的发展和应用,降低其潜在风险。

在此背景下,《打造大模型时代的可信 AI》论坛汇聚来自高校、研究机构、企业的专家学者,共同探讨 AI 安全领域的最新进展和未来趋势。

论坛内容

中国计算机学会计算机视觉专委会副秘书长潘金山博士在致辞中强调,AI 安全治理关乎技术的健康发展及社会的和谐稳定。加强 AI 安全治理,推动 AI 技术向善发展,已成为共同的责任和使命。

金耀辉:智能共生时代:平衡生成式 AI 的创新与风险

上海交通大学人工智能研究院教授金耀辉指出,大语言模型的内容安全风险包括提示词注入、输出处理不安全、训练数据中毒、模型拒绝服务等。这些风险可能对社会造成负面影响。为保障 LLMs 的内容安全,提出了训练对齐、面向安全的提示引导和文本过滤等手段。通过算法和数据微调增强模型整体安全性能,利用特定流程激活固有安全属性,并通过外接模块检测有害内容。

金耀辉进行主题分享

何延哲:人工智能安全检测评估的逻辑和要点

中国电子标准院网安中心测评实验室副主任何延哲分享了人工智能安全检测评估的核心逻辑与关键要点。他指出,我国已出台多项相关法律法规、政策文件及标准规范,为人工智能安全检测评估提供了坚实的制度保障。重点解读了《信息安全技术 机器学习算法安全评估规范》等标准规范,并强调了加强个人信息处理全生命周期保护、定期开展合规审计的重要性。

何延哲进行主题分享

谢洪涛:面向特定人物深度伪造视频的主动防御与被动检测技术

中国科学技术大学教授谢洪涛解析了面向特定人物深度伪造视频的主动防御与被动检测技术。主动防御技术主要是在内容发布前添加干扰信号,以防止伪造或实现溯源。被动检测技术则是在人脸素材被恶意伪造后,利用伪造视频自身获取线索进行检测。研究团队提出了基于扩散模型的反演能力搜索对抗人脸、基于互相关序列嵌入水印等创新算法。

谢洪涛进行主题分享

郭丰俊:视觉内容安全技术的前沿进展与应用

合合信息图像算法研发总监郭丰俊介绍了 AI 技术在图像篡改检测方面的最新成果。通用篡改检测已落地证券、保险、银行等行业,支持证照、证书、票据等通用类篡改模型。人脸鉴伪检测产品支持换脸、生成式人脸检测。文档图像篡改检测方向多次在比赛中获得第一名。针对跨域泛化能力、纯色背景图篡改检测等问题,提出了相应的解决方案和建议。

郭丰俊进行主题分享

赫然:生成式人工智能安全与治理

中国科学院自动化研究所研究员赫然博士对人工智能鉴别与合成技术之间的博弈进行了深入分析。他指出,生成式人工智能面临的主要安全风险包括数据泄露、隐私侵犯、内容造假等。建议建立健全的生成式人工智能监管机制,明确责任主体和监管标准。同时加强技术研发和创新,提高生成式人工智能的安全性和可控性,并加强国际合作与交流。

赫然进行主题分享

总结

本次论坛深入探讨了 AI 安全治理与生成式人工智能的风险应对。与会专家从内容安全、检测评估、主动防御、视觉篡改检测及治理机制等多个维度分享了前沿技术与实践经验。会议旨在推动 AI 向善发展,构建可信 AI 生态,为 AI 技术的健康应用提供有益思路。

目录

  1. 活动背景:AI 技术快速发展与安全治理需求迫切
  2. 论坛内容
  3. 金耀辉:智能共生时代:平衡生成式 AI 的创新与风险
  4. 何延哲:人工智能安全检测评估的逻辑和要点
  5. 谢洪涛:面向特定人物深度伪造视频的主动防御与被动检测技术
  6. 郭丰俊:视觉内容安全技术的前沿进展与应用
  7. 赫然:生成式人工智能安全与治理
  8. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • C 语言快速排序详解:从基础到非递归实现
  • LangChain 提示模板类型与应用详解
  • 初识 AI 语言大模型:概念、能力与挑战
  • PHP PDO SQL Server 分页 SQL 实现方案
  • LangGraph 工具调用实战:构建 ReAct 搜索机器人
  • Linux 普通用户切换为 root 用户的常用命令
  • OpenClaw 入门指南:安装、配置与自动化实战
  • 机器学习中的逻辑回归
  • C++ 命名空间详解:从 std 角度理解作用域与最佳实践
  • 使用 AI 在 Figma 中自动生成 UI 设计稿
  • 设计支持万人并发抢购的秒杀系统架构方案
  • Python 基于 Spotlight 的网络拼车司机推荐系统设计与实现
  • 基于 Flask 的语音转写 AI 总结:从 TXT 到 CSV 部署实践
  • 零基础网络安全入门学习路线与技术指南
  • 基于 AR 眼镜的春节亲戚称呼助手实现
  • 通义万相 2.1 API 集成实战:Python 实现文生图与文本生成
  • 基于 AIGC 与 Photoshop 的 Spine 2D 角色拆件工作流
  • HTML5 结合 AI 实现智能场景渲染技术指南
  • WebUI 测试与 Playwright 自动化适配方案
  • OpenClaw 开源 AI 助手安装与配置指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online