用统计置信度评估 AI 功能正确性的 SCFC 方法详解

论文信息

原标题

Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation

主要作者及研究机构

所有作者均来自巴西里约热内卢天主教大学：Wallace Albertini、Marina Condé Araújo、Júlia Condé Araújo、Antonio Pedro Santos Alves、Marcos Kalinowski

APA 引文格式

Albertini, W., Araújo, M. C., Araújo, J. C., Alves, A. P. S., & Kalinowski, M. (2026). Statistical confidence in functional correctness: An approach for AI product functional correctness evaluation. arXiv preprint arXiv:2602.18357v1.

一段话总结

本文针对 AI 系统概率性本质导致传统测试方法失效、ISO/IEC 25059 标准缺乏实操统计评估手段的行业痛点，提出了统计置信度功能正确性（SCFC）四步评估方法，通过定义量化规格限值、分层概率抽样、自助法估算置信区间、计算适配非正态分布的能力指数 Cₚₖ，实现了 AI 功能正确性从单一性能点估计到结合均值与变异性的统计置信度评估的转变；作者通过石油平台货舱空间估算、信用卡欺诈检测两个工业级 AI 系统的案例研究，并结合对四位不同领域 AI 专家的半结构化访谈，验证了该方法的可行性、实操性和工业价值。

研究背景

在 AI 技术深度融入医疗诊断、自动驾驶、金融风控等领域的今天，AI 系统的决策直接影响人类生活，但 AI 系统的固有特性让其质量评估成为行业难题，这也是该研究的核心出发点。

1. AI 系统的'先天特性'让传统测试方法失灵

传统软件的输入输出是确定性映射，比如输入一个指令必然得到固定结果，因此可以用确定性测试方法验证功能正确性；但 AI 系统是概率性、自适应性的，同一输入可能得到不同输出，比如欺诈检测模型对同一笔交易的判断可能因样本分布变化而不同，传统测试方法根本无法适配这种特性。同时，AI 还面临'测试预言机问题'：很多场景下没有明确的'正确答案'，比如图像识别的模糊场景、推荐系统的偏好判断，正确输出只能在概率范围内近似，进一步加剧了评估难度。

2. 行业现状：AI 项目失败率高，亟需稳健评估框架

有研究显示，约四分之一的企业报告其 AI 项目失败率高达 50%，而 AI 系统失效会带来巨大的社会经济成本——比如金融风控模型漏检欺诈会造成资金损失，医疗诊断模型误判会影响患者治疗。但行业内始终缺乏能量化风险、统计稳健的 AI 功能正确性评估方法，大部分企业仍依靠单一的准确率、召回率等点估计指标做决策，极易造成'虚假自信'。

3. 国际标准有框架，但无实操手段

为解决 AI 质量评估问题，国际标准化组织推出了 ISO/IEC 25059 标准，将传统软件质量模型适配到 AI 领域，明确了功能正确性是 AI 产品的核心质量指标。但该标准仅为高层级框架，没有定义具体的量化指标、抽样方法和统计分析手段，企业在实际应用中仍无章可循。

4. 现有研究的不足：只看'平均值'，忽略'波动性'

此前有学者提出过 AI 功能适用性的评估方法，但其核心是通过固定阈值判断性能是否达标，仅关注点估计指标（如平均召回率 95%），既没有量化 AI 系统的性能变异性（比如不同样本下召回率在 90%-99% 波动），也没有提供统计置信度的衡量手段，无法回答'这个 95% 的召回率，有多大把握能在生产中持续实现？'这一工业界最关心的问题。简单来说，现有方法就像只看学生的考试平均分，却忽略了分数的波动范围——平均分 90 分的学生，可能某次考 60 分，也可能次次稳定在 85-95 分，二者的'可靠性'天差地别，而 AI 工业部署需要的正是对可靠性的量化判断。

创新点

本研究的核心价值在于填补了 AI 功能正确性评估从'理论框架'到'工业实操'的空白，其创新点体现在四个维度，且所有创新均围绕工业界的实际需求展开：

评估范式创新：从'点估计'升级为'统计置信度评估' 打破了传统 AI 评估仅关注单一性能均值的局限，首次将性能变异性和统计不确定性纳入功能正确性评估体系，实现了从'知道模型表现好不好'到'知道模型有多大把握持续表现好'的转变，精准解决了工业界对 AI 部署风险量化的核心需求。
方法创新：提出非参数化的能力指数 Cₚₖ，适配 AI 的非正态分布 借鉴六西格玛的 Cₚₖ 能力指数，但摒弃了传统方法对数据正态分布的假设（AI 性能指标往往不满足正态分布），改用自助法得到的置信区间替代标准差计算 Cₚₖ，让指标更贴合 AI 系统的特性，计算结果更可靠。

案例名称	业务需求（LSL）	传统点估计性能	95% 置信区间	SCFC Cₚₖ值	评估等级	部署决策	核心价值体现
石油平台货舱空间估算系统	预测符合率≥70%（0.70）	83%（35/42）	[0.7143, 0.9286]	1.12	略高于最低能力	可部署，需持续生产监控	点估计看似远达标，但 Cₚₖ揭示性能下限仅略超 LSL，安全边际小，量化了部署风险
信用卡欺诈检测系统	欺诈召回率≥98%（0.98）	99.1%（8951/9033）	[0.9855, 0.9967]	1.98	接近优秀	适合部署，可直接投入生产	点估计达标，Cₚₖ验证性能稳定，下限仍超 LSL，确认部署无显著风险

用统计置信度评估 AI 功能正确性的 SCFC 方法详解