大模型新人入行方向选择与避坑指南
这篇文章,我将结合在大模型领域的经验,给大家详细聊聊新人应该如何转行大模型赛道。比如大模型都有哪些方向?各方向的能力要求和岗位匹配?新手转行大模型常踩的坑和常见的误区?以及入行大模型最顺滑的路径?
如果你是正打算入行大模型的校招/社招同学,请一定看完,可能会让你在入行大模型的路上,少走很多弯路。
01 大模型都有哪些方向?
如果你在求职网站搜索'大模型'关键词,看一下招聘 JD,基本可以了解现在业内对大模型工程师的需求方向和能力要求。
总结一下,大致可以分为 4 类:
1. 做数据的(大模型数据工程师)
涉及爬虫、清洗、ETL、Data Engine、Pipeline 等。这是目前非常核心且稀缺的方向。
2. 做平台的(大模型平台工程师)
涉及分布式训练、大模型集群、工程基建。主要服务于底层基础设施。
3. 做应用的(大模型算法工程师)
涉及搜/广/推、对话机器人、AIGC 应用开发。直接面向业务场景落地。
4. 做部署的(大模型部署工程师)
涉及推理加速、跨平台、端智能、嵌入式。关注成本与效率的平衡。
02 大部分新手的误区
如果是你,看到这几个方向,会怎么选?我估计很多人都直奔第三点去了,坚定的要做应用,走在所有工种的最前沿,做出让老板、用户都看得到的核心'产品'。
不过这里我不禁要给各位泼一点冷水,在 AI 算法这个行业,三是很吃业务经验的。如果你之前本身就是做算法的,比如是做 NLP,又或者是做语音助手、对话机器人这类的,再顺水推舟做相关方向的大模型算法工程师,这是比较合适的。在自身业务里融入一些大模型的算法和技法,拿到实际的业务产出,去市面上也比较好找这类岗位。
但如果你是 CS 方向的实习生/应届毕业生,或者其他 IT 方向转行大模型,3 未必是一个最好的选择。大家不要带着一个误区:大模型算法工程师就是调模型,调超参,做一做预训练,做一做 finetune,SFT 之类的活。
实际上呢,这部分工作只有很少人做,基本一个 team 中只有个位数的人,或者只是算法工作的很小的一部分。
注意一点,新人进去 90% 以上都不可能直接让你干算法模型调优的活,大部分可能还是让你配环境,搭链路,清洗数据,分析数据,调研,写一写 function,tools。
这些体力活都干熟了以后,可能才会让你跑一些模型实验。其中比较出色的,脑子比较灵活的同学,才会慢慢让他们开始接触线上业务。
也有很多同学,干了好几年,还是在干一些边角料,脏活,杂活,根本接触不到核心业务。对于刚入行的新人,如果你学历背景好点,可以去大公司做 intern 然后转正,背景差一点,可以去中小公司,积累业务经验。
03 数据很重要!
然后很多人可能往往忽视了上面的 1,2,4,觉得我学了这么多算法知识,学了机器学习,深度学习,还了解大模型,再去做数据,有点屈才了。
但我想告诉你的是,1 是更多转行大模型同学更容易上岸的方式。条条大路通罗马,不是只有一条路走到黑。
首先,目前国外的大模型技术至少领先国内两年,虽然国内已经有几十上百个'大模型'了,但真正能打的并没有几个。探究原因,还是有很多技术没有突破。
算法本身来说,GPT 已经不是什么秘密了。那剩下还有什么呢?一是数据,二是工程技巧。
拿数据来说,先说通用的大模型训练,数据的来源,从哪里采,数据的质量怎么把控,如何过滤有毒信息,语言的筛选与比例,数据的去重,以及数据的规范化处理,评测集的构建。这些既是体力活,又是技术活。
对于垂直领域,比如金融,电商,法律,车企,这种领域数据的构建就更考验技术了。业务数据怎么来,数据不够怎么办,完全没有数据怎么办?如果构建高质量的微调数据?
能把这些问题解决好,模型也就成功了一大半。因此,就目前的现状,对于数据工程师,特别是有经验的数据工程师,是非常稀缺的。
技术栈补充:
- 数据处理:熟悉 Spark, Flink 等大数据处理框架。
- 向量数据库:了解 Milvus, Pinecone, Chroma 等用于 RAG 场景的存储方案。
- 标注工具:掌握 Label Studio 等数据标注平台的使用与二次开发。
04 大模型平台干些啥?
然后说下 2,大模型平台工程师。如果你之前是做工程的,或者对工程比较感兴趣,我比较建议你选 2。
这二者其实并没有本质的区别,都是为了大模型业务服务的,也叫大模型基础设施的建设,作用就是让大模型 train 得更好,大模型跑得更快。


