大模型时代程序员的正确姿态与应对策略
过去的一年中,最炙手可热的是以扩散模型和大语言模型为代表的 AIGC 技术的普及。在可预见的未来,这种热度仍将持续下去。无论主观上是否愿意,AIGC 已经在重构我们的工作流程,重构人与人、人与机器、机器与机器的关系。上一次类似的技术变革还是上个世纪 90 年代末,互联网走向普通大众的时代。那也是一个软件英雄辈出的时代,求伯君、丁磊、王江民等皆以一己之力做出了风靡全国的产品。后面由于软件架构的日益复杂,特别是 B/S 以及移动端开发的日益复杂,2010 年后小团队创业成功的案例已经很少了。
正如互联网时代,网络增进了人与人之间的联系,"网聚人的力量"释放出了巨大的生产力。在 AIGC 的时代,计算机的能力得到了极大的增强,人与机器、机器与机器之间的协作构成了新的工具杠杆,加之开源软件的广泛应用使得个体、小团队重新获得了竞争优势。如果说二十五年前的互联网革命个体进入门槛是编程的能力,AIGC 时代则在编程能力之外还增加了对熟练开发或应用 AI 的能力。
程序员转型 AI:数学是必须的吗?
提起程序员转型到 AI,很多人的直觉是:搞 AI 啊,那数学得好吧,从高等数学、集合论、概率论、测度论、线性代数、泛函分析、凸优化整起。对于非数学专业和多数工科背景的人这个要求足以劝退。
但是在实践中,除了做 AI 编译器、优化器搞模型训练,绝大多数工作并不需要这些数学知识。以 ResNet 为例,设计这一网络架构只需要信息论的相关的知识就足够了,正如我们开汽车并不需要了解如何最优化发动机、电动机的工况。
我在二十年前开始学习统计自然语言处理时,也面临今天想转型到 AI 的同学一样的情况。当时全文检索系统风头正劲,准确的中文切分器能够让检索系统在构建索引的速度、索引大小与检索质量上获得一个较好的平衡。当时的主流是隐式马尔科夫的切分方案,基于 CRF 的字标注方法刚刚提出。CRF 方法的优化器采用拟牛顿法需要计算 Hessian 矩阵的近似,这个近似会占用大量内存,我从工程上优化了其物理内存占用,但是完成这个工作并不需要了解拟牛顿法的数学细节。而提升 CRF 方法分词器的效果需要引入更多、更全面的特征,这一工作也不需要特别高深的数学知识。需要额外补充,由于 CRF 方法需要序列标注(预测)点之后的数据,因此不适用于文本生成的用途,在当时文本生成仍然需要 n-gram LM。
定量的理性认知固然很好,但是很多场景下,宏观的感性认知已经足以指导我们日常的决策。
NLP 技术演进与原理认知
从分词算法的研究我们可以发现,引入当前数据集无关的外部领域知识可以提升系统的综合性能(f-score),但是如何更好的构造关联到字的特征向量成为新的问题。基于神经网络的语言模型可以将稀疏高维的特性向量压缩到稠密低维的特征向量(A Neural Probabilistic Language Model, Yoshua Bengio 2003),并进而 Word2vec (Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov, 2013) 发现可以对计算出的词向量执行语义计算。而 GPT、BERT 等预训练大语言模型更是把英文单词都切分成了多个 token,交由神经网络本身在前 8 层 Transformer Block 进行还原。要完成这些工作,仍然不需要特别高深的数学知识,依赖的是巧妙的任务设计和对概率论的初步了解。
顺便提一句,在 BERT 时代,基于知识库的问答,BERT 已经显著优于关键词和向量召回。
由于预训练语言模型非常消耗算力,以微软 UniLM 为例,24 层的模型在 2019 年已经需要 8 卡 V100 并行计算近一个月。因此在 2019 年 Google 提出了 T5 模型(Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, 2019)。虽然较现在的 LLM 能力稍弱,但是提出了可以基于前缀文本区分任务,进而在统一的框架内对语言模型进行预训练。例如当进行翻译任务时在需要处理的文本前面附加 translate English to German:,当需要进行文本情感分析时附加 sentiment:。类似的思路表现为现在的大语言模型普遍都有 SFT 或指令对齐阶段。OpenAI 发现可以借助 Prefix 或者这里我们称它为 Prompt,可以激发模型未被设计、训练的新的能力。
到 ChatGPT 为代表的大语言模型出现,传统意义上 NLP 的所有问题都得到解决,日常大量的文本处理类的工作可以无脑的使用大语言模型。但是,拥有了堪称强大的自然语言处理工具的现下,我们要解决的现实问题远没有得到解决,这甚至不是结束的开始,充其量只是开始的结束。
大模型的技术局限与挑战
以最新的论文《Top in Chinese Data Processing: English Code Models》为例,其提出对于特定的中文应用(如 RAG,检索增强生成)语言模型中受限的中文知识反而有助于降低幻觉。这种现象的真实原因仍有待进一步研究,但是现有的部分中文大语言模型其 Tokenizer 部分是存在缺陷的。简单讲,中文历史上存在单字成词的传统,理论上在 Tokenizer 中除了单字和成语,不应该出现常见字的两字组合(鸳鸯、麒麟、凤凰等是特例)。更进一步的,如果字出现的频率不高,单字也可以不出现(回退到 OpenAI 的方案)。
考虑到现实的算力限制,并不是每个程序员都有机会从头训练大语言模型,但是我们仍然需要对大语言模型的工作原理以及其工作方式的可能解释进行研究,因为创新往往需要通过观察事物并深入了解其原理后才能产生。
Prompt 工程的科学化
在过去的一年多,多方 Prompt 进行了广泛的研究,提出了 CoT(Chain of Thought)、ToT(Tree of Thoughts)等一系列 Prompt 方法。从大语言模型的原理出发,应该怎样科学的研究 Prompt 的制作才不至于沦为'玄学'、'咒语'?这需要建立评估体系,通过控制变量法测试不同提示词结构对输出稳定性、准确性的影响。
知识来源与推理边界
大语言模型内置了大量的知识,这使得用户经常混淆其能力的来源,是来自预置知识、类比还是真实推理。以及更一般的这些知识如何增删改(CRUD)。理解模型的上下文窗口限制、注意力机制的衰减特性,对于判断何时使用 RAG(检索增强生成)而非微调至关重要。
人格模拟与伦理
大语言模型能够借助其参数量模拟多种不同的人格,并预测对应人格在不同环境下可能的反馈,这有助于我们在不违反医学伦理的情况进一步的探索人类的认知。但在实际应用中,需警惕模型产生的偏见、歧视性内容以及潜在的隐私泄露风险。
程序员视角下的核心问题
在程序员的视角看,大模型的出现给程序开发带来了下面若干新问题,我们需要逐一拆解:
- 应用选型:应用是否应该引入大语言模型?是采用 API 接入还是本地推理?API 接入成本低但依赖网络且数据隐私风险高;本地推理可控性强但对硬件要求极高。
- 能力边界:大语言模型的局限在哪里?它擅长概率预测而非逻辑推导,容易在数学计算、事实核查上出错。
- 适用性分析:某类任务是否适用于大语言模型?有哪些设计模式?对于确定性高的任务(如数据清洗规则),传统代码优于 LLM;对于创造性任务,LLM 优势明显。
- 模型筛选:如何筛选当前任务合适的大语言模型?需综合考虑参数量、推理速度、成本及特定领域的垂直表现。
- 测试验证:如何设计合适的测试、验证任务?特别在大语言模型可能已经'偷看'过公开测试集的情况下,需构建私有测试集或对抗性测试。
- Prompt 设计:如何设计、优化指示大语言模型工作的 Prompt?应遵循结构化原则,明确角色、任务、约束条件及输出格式。
- 运维部署:实际部署、运维大语言模型,有哪些额外的注意事项?包括监控 Token 消耗、延迟优化、缓存策略及异常熔断机制。
实践建议与未来展望
为了应对上述挑战,建议开发者采取以下实践路径:
1. 建立分层架构
不要将大模型作为黑盒直接调用。建议采用分层架构:
- 感知层:负责意图识别、Prompt 组装。
- 决策层:利用小模型或规则引擎过滤明显错误请求。
- 执行层:调用大模型生成内容。
- 校验层:通过后处理脚本或二次调用验证输出合规性。
2. 重视数据闭环
大模型的效果高度依赖于数据质量。建立内部的数据收集、清洗、标注流程。利用用户反馈(RLHF 思想)持续优化模型表现。对于垂直领域,考虑使用 LoRA 等技术进行轻量级微调,而非全量训练。
3. 成本控制与优化
Token 消耗是主要成本来源。实施以下策略:
- 缓存机制:对相似 Prompt 的结果进行缓存。
- 模型路由:简单任务用小模型,复杂任务用大模型。
- 流式输出:减少首字延迟,提升用户体验。
4. 安全与合规
确保输入输出符合法律法规。部署敏感词过滤系统,防止注入攻击(Prompt Injection)。对于涉及个人隐私的数据,严禁上传至公有云模型,应优先选择私有化部署方案。
大模型的出现,固然带来了前所未有的挑战,但也为我们提供了一个深入了解我们自己、了解认知过程的机会。正如很多恐惧的根源是来自人类面对未知事物的本能,通过对大模型的探索,有助于我们发现并克服其局限,进而设计出更加智能、高效的应用。未来的软件开发将不再是单纯的代码编写,而是人机协作的编排艺术。程序员需要从'实现者'转变为'设计者'和'训练师',掌握定义问题、评估结果、优化交互的核心能力,方能在 AIGC 时代立于不败之地。
总结
AIGC 正在重塑技术栈,但核心逻辑未变。理解原理、明确边界、注重工程落地,是每一位程序员应有的正确姿势。通过持续学习新技术,保持对工具理性的敬畏,我们将能更好地驾驭这股浪潮,创造出真正有价值的产品。


