大模型开发通用流程
引言
大模型正在成为各类产品的核心组件,颠覆了传统产品和应用生态,进入 AI 大模型 + 应用的新阶段。例如,AI 搜索产品已经改变了传统搜索引擎的搜索模式,用户不再需要点击排序靠前的网页链接,而是直接得到大模型整合后的信息;文案创作、视频生成工具也颠覆了传统的 UGC 创作模式,降低了用户的创作门槛,提高了用户黏性。
大模型技术的应用场景广泛,被用于服务业、金融、医疗等方面,智能客服、智慧风控、智能诊断均出现它的身影。如果不了解大模型技术,就不能设计出更前沿易用的产品;当竞品都使用了大模型技术,而自己对大模型技术一无所知,再去了解就已经晚了。
此外,大模型技术也会改变传统的端侧应用的开发流程。传统的 APP 开发流程中涉及到后端开发、前端开发再测试发布;而基于大模型技术的端侧应用开发中,大模型可以充当后端(通过选择大模型、训练和部署大模型或者直接调用大模型接口)、前端开发最终测试发布。在大模型时代,每个人的能力边界被大大拓展,三五个人组成一个项目的开发团队将成为可能。
核心概念与原理
AIGC 与大模型
AIGC(AI Generated Content,人工智能生成内容):指利用人工智能技术自动生成各种类型的内容,包括但不限于文本、图像、音频、视频等,又称'生成式 AI'。
大模型(Large Model):指的是有数亿到数千亿的参数和复杂结构的 AI 模型,被广泛用于生成式 AI 领域。大模型的技术基础是 Transformer(主要用于文本生成),GPT、Gemini、通义千问、文心一言等均是基于 Transformer 构建的上层应用。此外还有主要应用于图像生成的扩散模型,Stability AI 的 Stable Diffusion、Google 的 Imagen 均是基于扩散模型构建的上层应用。
应用场景
大模型技术可以实现文本生成、图像生成、音频和视频生成等,被广泛使用在各个领域。
- 自然语言处理:大模型可以实现文本生成、语言翻译、情感分析等自然语言处理任务,可用于智能客服、聊天机器人等产品。
- 计算机视觉:用于图像识别、目标检测、图像生成等,可以进一步用在智能驾驶等领域,例如小鹏汽车发布了国内首个量产上车的端到端大模型,支持 AI 代驾、AI 泊车等功能。
- 语音识别:大模型可以用于语音识别、语音合成,应用在智能家居等领域。
- 垂直领域:垂直领域大模型还可以应用于金融、医疗、教育、法律等领域。例如大模型 + 律师应用可以为 C 端用户提供法律顾问服务,大模型 + 教育的应用为学生提供了题目解答、知识讲解、写作辅导等功能。
局限性
了解大模型的局限性,可以更好的辅助产品经理做决策和判断。
- 缺乏创新性:由于大模型是基于大量现有的资料训练得到,在需要创新的任务上受限。(例如前沿领域的研究和探索)。
- 存在幻觉:大模型依据概率生成的内容,有可能存在'一本正经说胡话'的现象,需要领域知识来判断生成内容的正确性。
大模型开发通用流程
要真正落地大模型应用,通常遵循以下标准开发流程:
1. 需求分析与场景定义
明确业务痛点,确定是否适合引入大模型。评估成本、延迟要求及数据隐私合规性。常见的场景包括智能问答、内容生成、代码辅助、数据分析等。
2. 数据准备与处理
高质量的数据是大模型效果的基础。步骤包括:
- 数据采集:收集领域相关的文本、图像或结构化数据。
- 数据清洗:去除噪声、重复数据,进行格式标准化。
- 数据标注:针对特定任务(如指令微调)进行高质量的标注。
- 数据增强:通过变换增加数据多样性,提升模型泛化能力。
3. 模型选择与预训练
根据任务需求选择合适的基座模型。对于大多数企业应用,直接使用开源基座模型(如 Llama 系列、Qwen 系列)或商用 API 更为高效。若需深度定制,可考虑在大规模语料上进行继续预训练(Continual Pre-training)。
4. 微调(Fine-tuning)
为了让模型适应特定领域或任务风格,需要进行微调。


