大模型的威力远超聊天框

文章探讨了大模型作为操作系统级产品的潜力，指出当前聊天框形态的低效性阻碍了早期大众的采用。基于鸿沟理论分析，强调大模型需从简单对话转向具备持久记忆、工具调用和任务规划能力的智能体（Agent）。文章详细阐述了实现 OS 级大模型所需的关键技术特征，包括持久化记忆管理、安全沙箱环境、多模态交互及任务分解能力，并预测这将重塑软件开发模式与企业应用架构。尽管面临幻觉、隐私和算力挑战，AI 原生生态的发展将推动人机关系从人适应机器向机器适应人转变，为开发者指明关注底层架构设计的方向。

菩提发布于 2025/2/6更新于 2026/7/2046 浏览

大模型的威力远超聊天框

自 2022 年底 ChatGPT 发布以来，我们真正看到了大模型的威力，也引发了技术圈种种畅想。有相当一部分观点认为，大模型是一种工业革命级的产物，相信更多的人会和笔者一样，认为大模型是一个操作系统级的产品，会彻底地改变，甚至颠覆现有的，我们使用机器的方式。诚然现在的大模型仍旧是算力杀手，想要让它真达到操作系统的使用规模，可能在硬件上、推理架构上还有一段路要走，但其前景是显而易见的。

所以我们看到，自 2023 年年初起，各家大模型粉墨登场，卷能力，卷榜单，卷价格，卷参数，让人不禁想问，然后呢？从市场情况上看，大模型应用仍旧处于极早期的阶段，而从产品形态上来看，哪怕是步入了智能体的时代，大模型依然被限制在那个聊天框里面，使用起来仍是相对低效的，对用户来讲仍旧是不那么方便的，自然用户使用的方式也被限制住了。

即便如此，我仍然坚持认为，大模型应当是操作系统，那么，就让我讲讲现状，开开脑洞，畅想一下未来应当是什么样子的。

掉书袋：鸿沟理论

去年，笔者读了一本名为《跨越鸿沟》的书，里面讲了技术采用的生命周期，名为鸿沟理论。这一理论将用户分为 5 类，分别为：创新者、早期采用者、早期大众、后期大众、落后者。

创新者热衷于一切比较新潮的技术，他们非常愿意尝试新鲜的事物，同时也对新技术的缺陷有着最大的包容，甚至愿意同技术开发者共同讨论优化这一技术。早期采用者则比创新者谨慎一些，他们如果相信这一技术未来会成为主流，早晚要拥抱它，才会去使用这个新技术，甚至为了新的特性，哪怕技术不够完善，也愿意用它去取代一些已有的东西，并提出这一技术应当怎么优化，成为一个好用的产品，所以他们也被称作有远见者。

这两批用户虽然很容易被吸引到，但也显然，相对于整个主流市场，他们的占比是很少的。

无论看当前用户的性质，使用的场景，还是单纯看数据，当前的大模型产品一定是处于极早期的，笔者判断，甚至可能没有突破到早期使用者。而主要原因，笔者认为就是当前的产品形态是相对低效的，或者说，当前大模型的产品形态、使用场景，远远达不到'操作系统级产品'的预期。

实际上，很多技术也是死在了前两批用户身上，从早期采用者到早期大众，实则是非常困难的。早期大众也被称作实用主义者，他们的特点是，新的技术形成的产品，得比现有的产品好用，让他们感觉到完成某一个任务变得更加方便，他们才会采用。而很多技术，从创新者和早期采用者那里得到的经验，极有可能是不适用于早期大众的。所以这一阶段，叫做'鸿沟'。

例如，笔者认为，大模型当前较主流的使用形态，即聊天框，是低效的，不符合大部分用户的使用习惯。或许我们应当去进一步探索，大模型怎么能真正渗透到日常的生活中。

顺带一提，正因当前大模型所处于的这一阶段，笔者认为，目前做大规模的投流一定是意义不大的，甚至可能损伤在早期大众用户中的第一印象。

大模型的威力与交互本质

算法圈的人一直说，自然语言是皇冠，搞定了自然语言，就搞定了人工智能。从原理上讲，自然语言里面的信息量是非常大的，毕竟这是我们为了描述这个世界，创造出来的符号化的表示了。但是又由于我们自身的不确定性，世界的不确定性，则注定自然语言本身也是不确定的，即我们是无法将自然语言转换成一套逻辑表示的。虽然，语言学的专家们提出了一种理想化的模型，起初是很简洁的，当然也就有了大量的反例，为了兼容现实情况，这种逻辑语言模型也变得无比的臃肿，无论形式上还是功能上都难以使用。

但是我们需要借助机器来做的，又大多是确定性的事情，哪怕现在有一些系统（例如人脸识别），没有达到 100% 的确定性，但是它能够快速识别很多张人脸，比人快，还比人准，记忆还比人强，那么其确定性就是高于人工的，实则还是对确定性的追求。这就意味着，机器需要的语言，或者指令，也应当是确定性的。起初，我们使用指令，或者代码来让机器完成工作，后来，进一步地，我们使用图形化界面，借助鼠标、键盘、触摸屏来让机器完成工作。

移动互联网为什么能够崛起，笔者认为，在绝大多数用户任务上，它有着不亚于 PC 的性能，但携带方便，随时随地可用，并且，触摸屏上多元的交互在一定程度上也比键盘鼠标更加方便（虽然有时候精确程度不如鼠标），上手成本还低得多，总之，它让用户在生活中变得更加的方便了，所以大部分用户接受了它。

那么我们回过头来看大模型，大模型最大的价值就是，它搞定了自然语言问题啊！它架设起了人与机器交流的桥梁，它能够将自然语言转换成为机器语言，这意味着，我们可能不必去适应机器的交互语言，而是让机器来适应我们的使用方式。当然，可能有的朋友会有疑问，推来推去，不还是说我要和机器直接说话吗？那聊天框不还是一个直观的方式吗？

不是的，自然语言是我们描述这个世界的方式，那么我们很多日常行为所带来的意图，是否都可以用自然语言来表示呢？那么，大模型最为这样一个中枢，是可以大大简化我们和机器的交互的。更进一步想，一个充分学习了我的习惯的大模型，是不是能更好地充当我的个人助理，我可以不需要设置确定的指令，只是我说要干什么，它就能够帮我处理好很多事情，达到我的意图。

可能还有的朋友要问，现在大模型达到了那个能力吗？

其实我们想想，我上面开的这两个脑洞，实际上都是多阶段的，每一阶段其实都是很简单的命令，现在的大模型理解这种简单的命令，笔者是相当有信心的。真正有考验的，其实是记忆能力，以及对已有记忆的注意力，也就是说，我需要的是过往交互中哪一轮的信息，大模型是需要能够精准识别的。

事实上，人和人交流的时候，应当是不会写那么'不是人话'的复杂指令的，或者那么一长串的 prompt，因为人也听不懂，也记不住（短时记忆空间根本没法支撑那些信息量，肯定得反复澄清），更多的还是一步一步培训，让人形成习惯，为什么到了比人弱一些的大模型（确切说，大模型的确在文本的阅读能力和'短时记忆'能力上一定程度是超过人的，但是理解能力嘛……），就一定要一轮就让模型精准完成需求呢？

所谓'重构，而不是整合'，我想应当是包含这种意思，也指明了大模型优化的方向。

大模型的威力远超聊天框

大模型的威力远超聊天框

掉书袋：鸿沟理论

大模型的威力与交互本质

更多推荐文章

相关免费在线工具

Agent 的思考与架构演进

操作系统级大模型的技术特征

行业生态的潜在影响

挑战与展望

总结

更多推荐文章

相关免费在线工具

大模型的威力远超聊天框

大模型的威力远超聊天框

掉书袋：鸿沟理论

大模型的威力与交互本质

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Agent 的思考与架构演进

操作系统级大模型的技术特征

行业生态的潜在影响

挑战与展望

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具