LUNA：基于模型的大型语言模型通用分析框架

摘要

过去十年间，人工智能（AI）取得了巨大成功，被广泛应用于学术和工业领域。近期，大型语言模型（LLM）快速进步，将人工智能推向新水平，赋能更多样化的应用与工业领域，特别是在软件工程和自然语言处理等领域。尽管如此，LLM 中出现的一些可信度问题，如稳健性和幻觉，已受到广泛关注。若不妥善解决，LLM 的广泛采用在实践中可能受到极大阻碍。LLM 的独特特征，如自注意机制、超大神经网络规模和自回归生成使用上下文，不同于基于卷积神经网络和递归神经网络的经典人工智能软件，并对质量分析提出了新的挑战。目前，尽管各领域工业需求迫切，但仍缺乏通用和系统的 LLM 分析技术。为弥补这一差距，本文提出一种通用的 LLM 分析框架，设计为通用和可扩展，能够以人类可解释的方式从多个质量角度对 LLM 进行多用途分析。特别是，我们首先从期望的可信度角度利用数据来构建一个抽象模型，