跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

从 AIGC 到 MCP 协议：大模型核心技术解析 | 极客日志

编程语言AI算法

从 AIGC 到 MCP 协议：大模型核心技术解析

AIGC 技术存在实时性与工具调用限制，RAG 通过检索增强生成解决知识时效性问题，Function Calling 赋予模型调用外部工具能力。智能体 Agent 在此基础上实现规划与执行闭环。MCP 协议作为统一标准，解决了不同 AI 助手与外部数据源、工具间的集成难题，提供类似 USB-C 的即插即用接口。文章解析了 MCP 的客户端 - 服务器架构、通信方式及原语机制，探讨了当前 MCP 服务配置、稳定性及开发门槛等问题，为理解大模型技术生态提供基础。

清心发布于 2026/4/7更新于 2026/7/437 浏览

从 AIGC 到 MCP 协议：大模型核心技术解析

1. AIGC

1.1 单模态

我们大部分人都是从 ChatGPT 问世开始接触 AI 的。刚开始用 ChatGPT 的时候，体验的其实是一种文生文的能力。比如输入一句话，模型生成一段文字回应。

不管是写代码还是写文章，都是 AI 根据输入文字（提示词 Prompt），生成另一段文字。这种让 AI 自动生成内容的能力，就叫做AIGC。

AIGC（Artificial Intelligence Generated Content）——生成式人工智能，是指基于生成对抗网络、大型预训练模型等人工智能的技术方法，通过已有数据的学习和识别，以适当的泛化能力生成相关内容的技术。AIGC 技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。

简单来说，就是用 AI 自动生成'人类常干的活'。

文章配图

单模态。

1.2 多模态

随着 AI 的进化，不只是文生文，像文生图、图生文、文生视频、图生视频等也都逐渐支持了，而这种支持多种类型消息的，就被称为多模态。比如现在的 GPT-5。而这些多模态模型，才是真正让 AI 从工具进化成助手的关键。

文章配图

AIGC 不管单模态还是多模态，有两个天生的限制：

不具备实时性：LLM 是离线训练的，一旦训练完成后，它们无法获得新的信息。因此，它们无法回答训练数据时间点之后发生的事件，比如'今天的最新新闻'。
不会使用工具：最初的 AIGC 只可以从现在的知识库中获取内容，而不会查询最新的信息，也不能调用 API。

因此，这就引出了两个技术方向，一个叫RAG，一个叫Function Call。

1.3 RAG 技术

RAG（Retrieval-Augmented Generation，检索增强生成）技术，它是一种人工智能（AI）框架，结合了信息检索和生成式语言模型的能力，以提高响应的准确性和相关性。

核心思想：当 LLM 需要回答一个问题或生成文本时，不是仅依赖其内部训练时学到的知识，而是先从一个外部知识库中检索出相关的信息片段，然后将这些检索到的信息与原始问题/指令一起提供给 LLM，让 LLM 基于这些最新、最相关的上下文信息来生成更准确、更可靠、更少幻觉的答案。

通俗的讲：原来模型靠死记硬背，现在它成了会'看资料答题'的开卷考试了。

RAG 的工作原理：

检索（Retrieval）：系统首先识别用户查询中的关键词，并使用一个检索模型在大型数据集（如文档库、数据库或互联网）中查找与查询最相关的文本片段。
增强（Augmented）：检索到的信息被整合到原始的用户提示（prompt）中，为语言模型提供额外的上下文信息。
生成（Generation）：大型语言模型接收到增强后的提示，并利用这些检索到的事实信息来生成一个更丰富、更准确且与用户需求更贴切的回答。

文章配图

这是原始 RAG 最经典的一张图了，当然后续还有进阶 RAG 和高级 RAG，这块单独还能出一篇，为了有些新手看的没那么复杂，这里把后面两个屏蔽掉了。无非在检索前做些优化（查询路由、查询重写、查询扩展）、检索后优化（重排序、过滤、聚合）。

假如我想查询现在的天气？RAG 只会根据现在的资料与知识来回答现在的天气，但天气是实时变化的，如何才能做到真正的查询最新的天气呢？

接下来就轮到**Function Calling（函数调用）**出场。

1.4 Function Calling

Function Calling 就是让模型具备调用工具的能力。

在日常对话中，大模型通常只需返回文字答案。但当用户提出诸如'帮我查一下明天北京的天气'这类超出模型内置知识范围的问题时，就需要借助 Function Calling，即让 AI 调用外部工具来完成任务。

Function Calling 的核心作用在于让模型具备以下能力：

判断当前问题是否需要使用工具
自动提取参数，并以结构化 JSON 形式生成调用指令
将调用交由程序执行，并接收返回结果，用于后续生成回复。

举个栗子：

'我明天要去杭州旅游，请帮我查天气'

传统的 LLM：

对不起，我只能提供截至 2025 年 10 月的信息。

支持 RAG 的模型：

明天北京 24℃，小雨。（它查了资料，但没动手）

支持 Function Calling 的模型：

它判断你这个请求，需要调用一个叫获取天气的函数，然后自动生成参数'city=杭州'，调用完天气 API -> 拿到结果 -> 生成回复：'明天杭州 24℃，小雨，建议带伞'。

文章配图

本质上，大模型通过自然语言理解用户意图：要完成什么任务、需要哪些信息。它会自动从对话中提取出关键参数。随后，用户的程序可根据这些参数调用对应的函数完成任务，并将执行结果返回给模型，由模型生成最终回复。

因此，Function Calling 是 AI 走向智能体的关键。

2. 智能体 Agent

接下来我们来说一说传说中的'人工智能——智能体 Agent。'

前面咱们说了，Function Calling 让模型拥有了'动手能力'。但是你会发现，现实世界的任务，往往不是一句话、调一次函数就能搞定的。

比如说你问它：‌我十一想自驾从上海去深圳旅游，帮我规划下出行方案。一个聪明的 AI 应该怎么做？理想流程可能是这样的：

查深圳十一当天的天气（看是否适合出行）
查从上海到深圳的高速路况
查加油站分布和服务区情况
安排中途住宿
综合输出一份旅游行程建议

可以理解成：它会思考、规划、决策、执行，真正具备了'完成任务'的闭环能力。

通过一张 Agent 流程图展示如下：

文章配图

并且，这整个流程可以重复多轮，直到目标完成。

以'十一从上海自驾去深圳旅游为例'，它可能经历这样的 Agent 执行链：

查询天气→如果有雨，提醒注意安全
查询路线→如果太远，中途加一站住宿
住宿安排→查附近酒店并给出建议
最终输出一个可执行的旅游计划

这就是 Agent 的特性：不是你一步步告诉它怎么干，而是它自己规划该怎么干，直接给你最终的规划和结果。

但是各家厂商大力发展 Agent 的同时，各自有各自的标准，当 Agent 越来越多，调用的工具越来越多、系统越来越复杂的时候，如何让模型可以按照统一的标准，低成本地接入更多工具呢？

答案就是：MCP 协议！

3. MCP

3.1 什么是 MCP

MCP 模型上下文协议（Model Context Protocol，简称 MCP）是一个由 Anthropic 在 2024 年 11 月 25 日开源的一个开放的、通用的、有共识的协议标准。

Anthropic 公司是由前 OpenAI 核心人员成立的人工智能公司，其发布的 Claude 系列模型是为数较少的可以和 GPT 系列抗衡的模型。

文章配图

3.2 为什么需要 MCP

MCP 协议旨在解决大型语言模型（LLM）与外部数据源、工具间的集成难题，被比喻为'AI 应用的 USB-C 接口'。

类比来看，不同的 AI 助手就像不同的电子设备，以前每个设备需要不同的数据线连不同的外设（比如老式手机数据线各不相同），而 MCP 提供了一个统一的细窄接口，让 AI 能够即插即用各种外设。例如，通过 MCP，一个 AI 助手今天可以连 U 盘（数据库），明天插打印机（邮件系统），后天接显示器（报告生成）——接口都一样，只是功能不同。就像 USB-C 让我们少了无数转换头和线缆，MCP 也让 AI 集成少了无数专有 API 和脚本。对于终端用户来说，这意味着 AI 助手将变得更加多才多艺且使用方便，因为背后复杂的连接都被这个看不见的

目录

1. AIGC
1.1 单模态
1.2 多模态
1.3 RAG 技术
1.4 Function Calling
2. 智能体 Agent
3. MCP
3.1 什么是 MCP
3.2 为什么需要 MCP

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

AI Agent 新范式：基于 FastGPT 与 MCP 协议构建工具增强型智能体
ChatGLM 医药行业舆情精选策略与大模型微调指南
AI 大模型：何时使用或不使用 GraphRAG
时序数据库选型指南：Apache IoTDB 国产开源技术实践
Spring Boot 微服务负载均衡实践
机器人室内导航：SLAM 与“室内 GPS”融合解决定位漂移问题
Git 安装配置与基础工作流实战指南
JDK 17 安装与环境配置实战指南
AI 大模型项目实战：多领域智能应用开发
AI 变现误区解析：为何掌握工具不等于获得收益
AI 小说生成器：基于大语言模型的长篇小说自动化创作
网络安全入门核心知识点与技能体系梳理
提示工程师：一个即将过时的职业
ClawdBot 语音翻译：Whisper tiny 带口音英语与粤语 WER 对比
DeepSeek 各版本演进与核心能力对比
时间长河共识算法（Time River Consensus Algorithm）
AI 绘画提示词实战指南：从基础原理到高效创作
RAG 全栈技术最新进展与核心组件深度解析
SkyWalking Kafka 与 RabbitMQ 消息链路追踪实践
法律人使用 AI 大模型指南：Prompt 工程与场景应用

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online