AI 大模型函数调用 Function Calling:接口演进、缺陷分析与逻辑赋能
一、接口概念
1. 接口类型 - 人机交互接口 / 应用程序编程接口
接口类型:"接口"的关键在于,使用接口的双方要遵守"事先约定"。
- 人之间的交互接口:通过语言、表情、动作进行交流。
- 人机交互接口 (HCI Interface):人与计算机系统之间建立联系、交换信息的输入/输出设备的接口。输入/输出设备主要有键盘、显示器、打印机、鼠标等。核心是"人"要遵守接口的规定,来操作计算机系统。计算机系统不懂人的语言,需要事先定义计算机可以理解的与人交互的"接口",人要学习计算机可理解的接口。
- 应用程序编程接口 (API):是一组预定义的函数、协议和工具,用于实现软件应用程序之间的通信和交互。API 允许开发人员在不访问源代码或理解内部工作机制的情况下,调用和使用特定的软件功能或服务。核心是"应用程序"要遵守接口的规定,来调用计算机系统中另外一个应用程序提供的服务。应用程序之间不知道另外一个应用程序的实现机制,需要事先约定如何提供服务,如何进行调用服务。
2. 人机交互口的发展
人机交互接口经历了以下演变:
- 命令行接口 (CLI):最早的人机交互方式,用户通过文本命令操作计算机系统。程序员需要受到严格训练才能流畅使用该接口。常见的有 DOS、Linux shell、Windows PowerShell。
- 图形界面接口 (GUI):应用程序靠图标、窗口、菜单等图形元素与用户交互,极大地降低了使用难度,用户只需简单学习即可使用。
- 语言界面接口 (CUI/LUI):通过自然语言对话的方式与计算机系统进行交互(如汉语、英语)。这种交互方式更加直观、自然,用户无需记忆复杂的命令或操作图形元素,不需要学习只要会说话就可以操作该接口。常见的有智能音箱、手机助手 (Siri)、GPT 大模型等。在智能家居、智能客服、语音助手等领域得到了广泛应用。
- 脑机接口 (BCI):允许用户通过大脑活动来与计算机进行交互,涉及脑电图 EEG 等神经科学技术,以捕捉和解析大脑信号。
3. 应用程序编程接口的发展
- 本地 -> 远程 API:早期 API 只应用于本地或局域网内的程序间通信,随着互联网发展,远程 API 使得不同地理位置的进程能够相互交互。
- 同步 -> 异步 API:同步 API 要求客户端在请求后等待服务器响应,异步 API 允许客户端在等待响应的同时继续执行其他任务,提高了程序的效率和响应性。
- 传统 API 本质不变:传统的 API 本质都是程序员互相约定好,服务方给出文档接口,使用方按照文档接口进行开发,使用服务方功能。
- 自然语言接口 (NLI):所有的软件都可以提供 NLI 接口,软件进程之间传递自然语言,互相之间不再使用 API,而是使用自然语言进行协同交互,无需编写代码或遵循特定的语法规则,使得非技术人员也能轻松地与软件系统进行交互和定制。
上述发展仅仅是从 AI 大模型角度出发考虑的应用程序编程接口发展问题,短时间内完全实现的可能性不大。
二、AI 大模型缺陷与补救措施
1. AI 大模型原理
GPT 大模型 (Generative Pre-trained Transformer) 是一种基于 Transformer 架构的生成式预训练语言模型,在大规模无监督文本数据上进行预训练,学习语言的普遍规律,从而具备生成高质量文本的能力。
通过预测单词序列中下一个单词的方式,模型能够学习到文本中的语法、语义和上下文信息,从而捕捉到丰富的语言知识。根据概率生成文本的机制,例如提示词是 "The cat",根据现有提示词,后面生成每个词的概率中,"sat" 的概率最大,则生成 "sat" 单词。
2. AI 大模型缺陷
AI 大模型存在如下缺陷:
- 并非全知全能:AI 大模型知晓一切,其本身的知识仅限于训练的数据包含的内容,一些非公开的知识它是不知道的,也不会生成出来。
- 时效性差:AI 大模型训练一次消耗很多时间和资源,不可能随时保持更新。例如 GPT 3.5 的知识截止到 2022 年 1 月,GPT 4.0 截止到 2023 年 4 月,每次训练都需要花费 1 年的时间。整理完数据,训练一年后才能推出新版本。


