AI 大模型开启新一轮技术周期
从康波周期理论来看,当前正处于'萧条时期',也就是'回升期'的前夜。ChatGPT 的横空出世,打破了黎明前的寂静,科技重回喧嚣、暗流涌动。回顾人类社会的发展历程,过去两百年历史进步的主要动力,来自科技发展推动生产力突破。在这一轮的康波周期中,生产力的突破特征,体现在 AI 大模型取得了里程碑式的进步,人类首次看到了 AGI(通用人工智能)的曙光。
本文探讨了 AI 大模型在当前康波周期中的定位,分析了国内外大模型的发展差异及“涌现”现象。文章指出大模型本身未必改变世界,但其应用将重塑行业。详细梳理了办公、金融、医疗、文娱、教育、交通六大领域的落地场景与技术特点。同时补充了 Transformer 架构、RAG、微调技术及推理优化等关键技术栈解析,强调了 B 端商业化价值及未来面临的伦理与安全挑战,倡导科技向善。

从康波周期理论来看,当前正处于'萧条时期',也就是'回升期'的前夜。ChatGPT 的横空出世,打破了黎明前的寂静,科技重回喧嚣、暗流涌动。回顾人类社会的发展历程,过去两百年历史进步的主要动力,来自科技发展推动生产力突破。在这一轮的康波周期中,生产力的突破特征,体现在 AI 大模型取得了里程碑式的进步,人类首次看到了 AGI(通用人工智能)的曙光。
AI 技术能否成为新一轮经济增长的引擎?中美在 AI 领域又将展开怎样的角逐?基于大模型的应用又有哪些颠覆式创新?现在下定论,还为时过早,但技术演进的方向已逐渐清晰。
哲学家詹姆斯·卡斯在 1987 年出版了《有限与无限的游戏》,书中提出一个观点:'世上至少有两种游戏。一种可称为有限游戏,另一种为无限游戏。有限游戏以取胜为目的,而无限游戏以延续游戏为目的。'王兴曾说:'有限游戏在边界内玩,无限游戏却是在和边界玩,探索、改变边界本身!'
大模型显然是一场无限游戏,大模型会不断拓展、改变边界。然而,国内大模型的发展现状值得深思。
品玩创始人骆轶航在一次 AGI 行业闭门会议上表示:'至今为止,国内没有一个大模型出现'涌现'。'当被问及大模型何时会涌现时,有行业大佬回答:'你问我,我 TM 问谁?'
那么,没有出现'涌现',对于国内 AI 大模型来说,是件可怕的事情吗?傅盛认为,AI 大模型的发展,关键看应用场景。举例来说,酒店服务机器人这个场景,可能对'涌现'就没有这么高的要求。目前大模型的能力已经能够很好地理解人类语意,并且生成较为符合场景的内容,对酒店服务机器人的用户体验提升,已经超过 10 倍。
尽管存在技术差距,但在应用层面,国内厂商展现出了极强的落地能力。
百度文心一言:基于使用场景预置了许多提示词,比如小红书文案探店、Slogan 生成器、知乎回答生成、短视频脚本生成、水墨风格绘画、论文参考等。如果把 ChatGPT 比作毛坯房,那么文心一言就是风格迥异的精装房。后者的好处是,让用户做选择题,降低了学习提示词的成本。
阿里通义千问:钉钉的闪记能够把在线会议自动整理成文字稿,并且标出重点摘要;企业还可以训练专属的智能问答机器人,在钉钉群里提供智能问答;钉钉文档的 AI 是基于通义大模型打造的,可实现头脑风暴、辅助创作、改内容语气风格、文生图、文生表等。
讯飞星火:App 里有个助手,同样预置了许多场景,如解梦、节日祝福视频助手、Python 编程助手、市场分析师、人生模拟器、商业文案、英语口语交流助手、星火法律咨询、我的家庭医生等等。
国内大模型在应用的体验和创意方面是强项。在一个非常垂直具体的应用场景之下,行业数据以及行业认知才是关键,至于有没有'涌现',其实影响没那么大。
基础大模型的研发,耗费巨大的人力、物力、财力,能够投入这些资源的基本都是科技巨头,或顶级风投公司。他们有资源、也有耐心做中长期的技术布局。
相对来说,很多借着这一轮 AI 热潮迅速崛起的创业公司,发展情况并不乐观。例如 Jasper 的用户增长连续四个月下降,这是一款面向文字创作者和企业的 AI 写作工具,估值在最高的时候达到 15 亿美金,而在 7 月份不得不裁员,并下调了明年的收入预测。就连 AI 绘画独角兽 Midjourney,也经历了连续三个月访问量下滑。在 6 月份刚刚完成新一轮融资 9000 万美元的 Synthesia,其过去六个月的网站用户增长也均为持平或下降的状态。
这个现象很好理解,对普通用户来说,AI 绘画、视频工具,除了发发朋友圈之外,似乎并没什么用。新鲜劲一过,就如同鸡肋,最终被用户抛弃,流量下滑是很自然的事情。K 哥认为,Jasper、Midjourney 这一类 AI 工具的商业化机会,更有可能出现在 B 端企业。因为,工具的本质是提高劳动生产率,AI 创业公司结合企业的实际场景,打造提效工具,给企业带来价值。许多企业愿意为此买单。
蔡崇信说:'任何商业机会,基本上是有 30% 把握去做的时候才能赢面最大。如果几率太小可能亏本,几率太大基本就是红海了。'AI 是下一个大风口,这个是 100% 的共识,问题就出在这里,太快达成共识了,这片海已经红得发紫了,普通人还能有什么机会?这在科技界是很罕见的,值得大家思考。回顾科技发展史,互联网、区块链、元宇宙、新能源等等,哪一个不是在不停争论当中,逐渐达成共识,逐步发展而来的?
身边有很多大厂技术高管摩拳擦掌,准备裸辞下场,投身 AI 创业。大多数情况下,我都会劝他们放弃这个想法。都'百模大战'了,你一个普通创业者还能有什么机会?想想当年'百团大战',最后剩下几家?巨头下场竞争的结果,就是这个赛道里 99% 的企业,都会成为炮灰,资本是最后的赢家。
百度的李彦宏说:'大模型将改变世界。'但有观点认为,大模型本身不会改变世界,基于大模型的应用将改变世界。选取了几家做大模型行业应用的公司做了调研,非常惊讶于大模型在各行业中应用的速度,而且已经有了相对成熟的落地场景,这些行业包括:金融、影视、游戏、教育、电商、交通、医疗等等。
大模型应用比较成熟的行业有几个特点:
前文已经讲过钉钉文档基于通义千问大模型,提供了辅助创作、改内容语气风格、文生图、文生表等能力。国内的金山办公、腾讯文档、飞书文档;国外的微软、Adobe 也陆续推出了智能办公的功能。以微软为例,Office 里集成了 GPT-4 的功能,以聊天机器人的方式出现在文档右侧。而国内的金山 WPS AI,则集成了文心一言、MiniMax、CopyDone 等大模型,提供智能写作、全文翻译、图像识别等功能。
今年 3 月彭博社发布了金融大语言模型 BloombergGPT,以帮助客户经理以及金融分析师更好的提升服务质量,大模型能够对金融资讯进行情感分析、新闻智能分类、实时问答等等。保险公司 Lemonade,通过大模型打造了虚拟助手 Maya 和 Jim,它们能够自动收集信息、提供报价、处理付款,帮助客户在 3 分钟内获得保险赔款,还能够预测灾害,并实时反应。比如当灾害发生,该机器人会自动封锁区域,并向人工索赔团队发出潜在紧急情况的警报。国内的农业银行发布了百亿参数级别的大模型 ChatABC,具备聊天、行业知识问答、生成内容摘要的能力,目前已在客户自助咨询、客服工单回复等场景应用。
AI 大模型在医疗领域的应用主要有新药研发、基因研究、诊疗、健康管理等等。谷歌收购的 DeepMind,推出了医疗大模型 Med-PaLM 在医学考试当中已经接近了'专家'水平,还破解了几乎所有蛋白质结构,为新药研发、利用新技术应对饥荒或污染等方面做好了技术储备。影响大模型在医疗行业应用的主要问题在于数据,前面讲过数据是大模型的燃料。医疗行业数据量非常大,但是质量不高,对这些数据进行清洗和治理需要一个过程。目前包括华为的盘古大模型已经在助力新药研发、百度文心一言推出了医疗大模型 GBI-Bot、京东健康发布了'京医千询'大模型、医联科技推出了千亿级别参数的医疗大模型 medGPT。具体应用效果,还需要时间来验证。
携程发布了国内首个旅游行业垂直大模型'携程问道',携程在旅游业多年,积累了丰富的、高质量的数据。'携程问道'为在线旅游平台创造价值、降低成本,如:提高客服工作效率、为消费者进行路线规划、景点酒店答疑、旅游行程规划等等。在游戏领域,华为云帮助游戏美术设计师确定风格,辅助框架、剧情、玩法的设计,优化玩家和 NPC 交互方式与体验。阿里大文娱,基于'提香'大模型,推出了引爆社交媒体的'妙鸭相机'App。这是一款基于 AI 的美图应用,只需 9 块 9,用户通过上传多视角、多表情的照片,就能生成一整套写真。
教育行业具备成熟的数字化基础,数据质量非常高,AIGC 教育产业链也基本形成,主要应用方向是:个性化需求 + 高频迭代。应用场景包括:口语练习和考试、作业批改、辅助评分、学员和班级学习进度分析、智能教案生成等等。国内的好未来,推出了首个数学大模型 MathGPT,这是一个面向数学爱好者和科研机构的垂直领域大模型,千亿级别参数规模。用户通过上传图片或文字,即可获得对话式的解答反馈。涵盖了小学、初中、高中的数学题,MathGPT 在 C-Eval 的初高中全科测试方面,表现也不错。
大模型在交通方面的应用场景非常丰富,在智能驾驶领域中美处于竞争状态。大模型可以统一交通信号控制、交通状况分析、成为交管指挥的助手。在自动驾驶方面,离不开感知、决策、执行三个部分,自动驾驶的核心目的是脱离人的干预,让汽车可以安全、高效地驾驶和完成各种任务,AI 大模型将为自动驾驶提供强大的技术支撑。大模型可以自动学习交规、对道路信息进行高效处理、提供精准的感知和决策能力,大模型还可以从海量汽车当中收集数据,并通过联合学习进行模型优化。国内,百度基于文心大模型推出了数字人'简璐璐',提供更友好和智能的交通信息交互方式。百度还打造了交通大模型,可全面升级交通管理、运输、出行等场景。毫末智行基于 GPT 技术,推出自动驾驶大模型 DriveGPT,主要用于驾驶场景决策领域。通过引入驾驶数据,使用 RLHF(人类反馈强化学习)技术,对自动驾驶决策模型进行优化。商汤科技也发表了'日日新 SenseNova'大模型,商汤认为'入口'、'AI 助手'、'知识库'是大模型在交通管理领域三大表现形式。阿里云推出了'千问伙伴计划',基于'通义千问'的开放能力,与行业伙伴共创生态应用,千方科技作为首批交通领域合伙伙伴参与共创。
为了更深入理解大模型的技术实现,我们需要关注以下几个核心技术点:
Transformer 是目前大模型的基础架构,它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全基于注意力机制(Attention Mechanism)。Self-Attention 机制允许模型在处理序列数据时,直接计算任意两个位置之间的关联权重,从而捕捉长距离依赖关系。这种架构使得并行计算成为可能,极大地提升了训练效率。
针对大模型幻觉问题和知识时效性问题,RAG 技术应运而生。RAG 通过外部知识库检索相关信息,将其作为上下文输入给大模型,从而生成更准确、更具事实依据的回答。在企业级应用中,RAG 是构建私有知识库问答系统的核心方案,通常涉及向量数据库(如 Milvus, Pinecone)和 Embedding 模型的使用。
虽然预训练模型具备通用能力,但特定领域的任务往往需要微调。常见的微调方法包括全量微调、LoRA(Low-Rank Adaptation)、P-Tuning 等。LoRA 通过冻结预训练模型权重,仅训练低秩分解矩阵,大幅降低了显存占用和训练成本,使得在消费级显卡上微调大模型成为可能。
在实际部署中,推理速度至关重要。vLLM、TensorRT-LLM 等框架通过 PagedAttention、量化(Quantization)等技术,显著提升了大模型的推理吞吐量。INT8 或 FP16 量化可以在几乎不损失精度的情况下,减少模型体积和计算延迟。
以 ChatGPT 4 为代表的 AI 大模型,敲开了 AGI 的大门,展现出许多激动人心的能力和特性,这仅仅是个开始。心理学家丹尼尔·卡内曼在著作《思考,快与慢》里提出,人类大脑有两个思维系统:即'快思考'、'慢思考'。'快思考'是基于直觉和经验的,直观、自动、快速、无意识的思考方式;'慢思考'是有意识的、理性的、深度的真正意义上的思考。
当前的大模型,是以'快思考'为主的,基于场景、可以解决生活和工作当中各方面问题的;'慢思考'的能力较少。这意味着在深度思考、复杂决策、逻辑推理等方面,大模型仍有很长的路要走。
大模型发展仍处于早期阶段,将面临许多问题,比如:'数字鸿沟'进一步加剧,深化地区和行业的不平等;引发社会伦理和安全等问题。前段时间甚至有数百名科学家联名呼吁停止 GPT-5 的研究,AI 技术一度被异化为'电车难题',而解题的关键在于使用 AI 技术的人,以及法律法规的尽快完善。
科技一定要向善,AI 会让人们的生活越来越美好。最后,以李开复的一句话作为结尾,与你共勉:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online