阿里云大模型工程师 ACA 认证学习笔记
第 1 章 认识大模型
1.1 大模型的定义
- 官方定义:基于 Transformer 架构,通过海量数据训练,参数规模达到数十亿甚至万亿级,具备通用智能的深度学习模型。
- 核心关键词:Transformer、海量数据、大规模参数、通用能力、涌现能力。
- 本质:通过学习数据中的模式,实现对文本、图像等信息的理解与生成。
1.2 大模型的发展历史
| 阶段 | 时间 | 关键技术 / 模型 | 核心突破 |
|---|---|---|---|
| 早期阶段 | 2017 前 | Word2Vec、Seq2Seq | 实现文本向量表示,支持简单序列转换 |
| 架构革新 | 2017 | Transformer(Attention 机制) | 解决长序列依赖问题,为大模型奠定基础 |
| 预训练兴起 | 2018-2019 | BERT(双向编码)、GPT-1/2(自回归) | 预训练 + 微调模式成型,模型能力显著提升 |
| 规模爆发 | 2020-2021 | GPT-3(1750 亿参数)、PaLM | 涌现能力显现,支持少样本 / 零样本学习 |
| 产业落地 | 2022 后 | ChatGPT、文心一言、通义千问 | 对话交互成熟,多场景商业化应用 |
1.3 大模型的关键特性
- 涌现能力:当模型参数达到一定规模后,出现未被显式训练的能力(如逻辑推理、代码生成)。
- 少样本 / 零样本学习:仅需少量示例或无示例,即可完成新任务。
- 通用能力:覆盖文本理解、生成、翻译、代码、数学等多任务。
- 可扩展性:支持通过微调、提示词工程适配特定场景。
1.4 核心考点
- 大模型的定义与核心特征(必考)。
- Transformer 架构对大模型的意义。
- 大模型与传统深度学习模型的区别。
第 2 章 大模型应用场景
2.1 核心应用场景详解
(1)智能客服
- 典型场景:企业官网客服、电商售后、金融咨询。
- 核心能力:意图识别、多轮对话、常见问题解答(FAQ)。
- 优势:7x24 小时响应、降低人力成本、标准化服务。
- 案例:阿里云智能客服'小蜜',处理电商平台售后咨询。
(2)内容生成
- 典型场景:营销文案、新闻稿、报告撰写、小说创作。
- 核心能力:风格适配、内容原创、逻辑连贯。
- 工具支持:通义千问、文心一言的内容生成 API。
- 注意事项:需人工审核内容准确性、合规性。
(3)代码助手
- 典型场景:代码生成、语法检查、调试、注释添加。
- 支持语言:Python、Java、JavaScript 等主流语言。
- 工具案例:GitHub Copilot、阿里云代码助手。
- 核心价值:提升开发效率、降低入门门槛、减少重复工作。
(4)数据分析
- 典型场景:数据清洗、可视化图表生成、洞察提取、报告自动生成。
- 核心能力:自然语言转 SQL、数据解读、趋势分析。
- 适用人群:非技术人员(产品、运营)快速分析数据。


