2023 年初,ChatGPT 的出现引发了国内外各类 AIGC 技术应用的爆发,让人们看到了新世界的曙光,也感受到了迫在眉睫的剧变。无论是前沿科技产业还是整个经济社会格局,都将因此产生巨大的变化,众多企业将迎来价值重估,无数行业将面临重构。
自然语言处理的技术挑战
人类文明的记载是从有文字开始的。如今我们所有工作都围绕文字展开,比如说写材料、翻译内容、撰写方案,如果用自动化来处理文字,不就省时省力了吗?
讲到自然语言处理(NLP),为什么文字的自动化处理这么难?我们日常用的汉字大概有 3500 个,但中文解析非常复杂。因为汉字包含基础常识,阅读起来很多不是明面意思所能表达的。需要更多技术的积累,才能突破文字处理的技术。有一些专业的知识,比如'狗眼看人低'、'狐朋狗友',仅仅只是诠释'狗'这个字,要让计算机识别的话,都要经过长期的训练。因此大模型需要大量的语料、知识,要想计算机了解冰山背后的知识,需要跨越认知屏障。
GPT 与大语言模型架构
达观数据总结 ChatGPT 的特点为'一独三巨',是指全球独树一帜的技术路线、巨大的参数规模、巨大的算力消耗、巨大的训练数据量。OpenAI 在 2016 年历经 7 年,耗资近 20 亿美元,经过若干次失败才推出划时代意义的人工智能系统。
如何理解 ChatGPT,先从 GPT 三个字母来理解:
- G (Generative):出发点和核心能力,即自己生成、自己创造。
- P (Pretrained):通过大量文档预先学习的能力,现在有预训练工程师,比 AI 训练师提高了一个等级。
- T (Transformer):是对文字、知识有效的提炼算法。
大模型 LLM 与 ChatGPT 的关系是怎样的?GPT 是众多 LLM 大语言模型当中的一种,是目前被证明处理文字最成功的一种模型;ChatGPT 是面向对话场景定向优化后的 GPT 子版本,未来针对其他应用场景还会出现更多的 X-GPT 系统,甚至更多其他的 LLM 语言模型。
目前绝大多数大规模语言模型都使用了 Transformer 的基础组件结构,但是在实现方式和结构组件上有所区别,总体可以划分为三条技术发展路径:
- 技术路线一:优点是训练代价小,效果不错,曾经一度领先。
- 技术路线二:缺点是算力数据等成本极高,需要大量的数据,只有少数厂商坚持下来,做了一件难而正确的事。
- 技术路线三:混合模式,理论上融合了前两者,实际效果还待未来发展。
跑出来以后可以用它写情书、写科研报告、写年终总结报告。它有先后的逻辑,能把一篇文章中的标题提炼出来。这就是'涌现'能力,像人类有了文字之后,文明突飞猛进一样。'涌现'能力,是在参数规模超过某个阈值后,可观测到系统处理结果会出现一个巨大的飞跃,也叫机器的顿悟。目前导致该现象的原因尚不明确,有人猜测是很多复杂任务需要多个连接思维的这种贯通才能够达到准确效果。
智能系统的三要素
来看智能系统的三要素,即算力、数据、算法。
- 算力:GPT 出现后,国内算力市场供不应求,现有的算力资源不够分配了,大家都在做自己的大语言模型。
- 数据:整个市场需要人才,未来几年之内这三方面的人才紧缺是显而易见的。
- 算法:我们在 AIGC 的国产自主化道路是非常强的,但同时道阻且长。
国产垂直领域大模型实践
目前国内研发的大模型强调'垂直'、'专用'、'国产'。以达观数据的'曹植'大语言模型为例:
- 垂直:针对金融、工业、财税、政务、能源等垂直行业的应用场景。
- 专用:系统可以为每个用户量身定制、私有化部署,确保数据安全私密。
- 国产:坚持原创自主,训练数据和算法模型自主可控。
曹植大模型更强调垂直领域专业知识的这种积淀,要用大模型不断填充专业领域的知识,要把人类的常识输入进去,要把逻辑推理能力把它训练出来,要让它熟练运用知识。目前专注于运用 AI 技术实现文本自动化的处理,包括图像、文本、语音。
例如起标题,根据文章里多个字词,寻找最佳的概率匹配;还有申报材料的自动生成,还可以帮助完成总结报告。已有产品嵌入 WPS Office 成为自动插件,进行写作、纠错、润色、排版等功能。
大语言模型的未来展望
大语言模型开通了人工智能之路,从传统的专用 AI 系统到通用人工智能 AGI 系统。加入进来的大企业越来越多,让 AI 系统像人类一样灵活应对各种应用场景和多样化的工作环境,实现各行各业的通用智能化。这确实为我们打开了一扇大门。印刷术的出现改变了文字,推动社会经济、推动人类文明方面的巨大改变。未来也将通过智能文本实现技术的突飞猛进,要进行一场办公室革命。


