重新思考终端 LLMs 和 Agents

综述由AI生成探讨终端大语言模型（LLMs）与智能体（Agents）的现状与未来趋势。分析了模型能力与限制，包括多模态、推理及规模效应。讨论了云端与终端部署的挑战，如算力资源、隐私保护及成本效益。阐述了 Agent 的核心组件（规划、记忆、工具），并对比了不同交互界面（LUI、GUI、CLI）。最后展望了端云协同模式及厂商模型开放的可能性，为技术决策提供参考。

RedisGeek发布于 2025/2/6更新于 2026/6/322 浏览

0x0 前言

LLM (Large Language Models) 的风头一时无两，席卷万千行业。业内不乏有关于 LLM 的研究和讨论，但鲜有立足终端的视角。团队上半年曾有过对 GPT 进终端的分析，但 LLM 日新月异，旧分析已经不完全跟得上变化了。适逢年底规划季，尝试重新梳理 LLM 的现状，预判未来变化的趋势，希望能为迷茫的同仁提供思考的角度。

非算法出身，如有错漏之处，恳请指正；力争能让 RD、PM、DA 们都能看懂，如果不明处，欢迎讨论；

终端 LLM 应用有一定不确定性，请务必根据自身业务需求做出必要验证后，再做出方案确定；

文档基于 23 年年底的技术现状尝试做出推断，有效期未知，切勿考古刻舟求剑。

下文将分别探讨模型和场景，有一些随性延展，按需取用。

0x1 Underlying LLMs

LLM 的设计始于理解和生成广泛的人类语言，而非针对某个特定任务。不同于专攻特定任务的 NLP，出于对语义和语境的理解，LLM 可以进行文本生成、摘要、翻译、情感分析等多样化的工作。这样多元、可泛化、可迁移的能力，使得 LLM 可以作为不同任务的基石，亦即 underlying。

众所周知，当前的 LLM 还没有达到 AGI 的程度，并不是场景通吃，更不是 cost free。本着实用主义的态度，在思考 LLM「怎么用」之前，还得先看看「能用么」 —— 能做什么、不能做什么，以及「好用么」—— 效益几何、成本几何。

那么，开始模型的思考之旅吧。

0x10 能力与限制

对于 LLM 的核心能力，笔者有一些可供参考的认知维度：

多模态理解和生成：LLM 能够处理和生成多种不同类型的内容，不仅包括文本，还可以包括图像、音频、视频等其他类型的数据，甚至能够跨越多种数据类型产生更为丰富和复杂的内容。

内建知识：在大量的语料库训练中，LLM 能够学习大量的知识，这种知识可以被视为是模型的内建知识。这使得它们能在回答问题或进行其他相关任务时倾向于生成与已知事实一致的回答。

推理能力：LLM 不仅可以理解并生成语言，还有强大的推理能力。这使得它们能够根据给定的信息，生成新的、有洞见的内容。例如，它们可以根据一个问题的上下文，推理出更加全面和深入的答案。

LLM 的强大之处相信已毋庸置疑，这里仅关注上述维度下，LLM 核心能力存在的问题和局限性：

0x11 模型全家桶

LLM (Large Language Models)，大是毋庸置疑的。大模型的参数规模在一定程度上披露了模型通过训练所能掌握的知识和规律的上限，此即我们耳熟能详的 Scaling Law。

在特定领域下'small variants'能不能在高质量数据的加持下实现近似大模型的效果，以及如果能，能不能以相近方案覆盖迁移到足够多的领域，直接决定了'small variants'们除迭代频率外的实用价值。微软有研究证实了在高质量数据下，小模型可以匹敌 50 倍于己的大模型。如果'small variants'可用，则至少可以在 MoE 中以成本优势而胜出。但'small variants'能否推而广之尚未定论，有还在等子弹飞的。

'small variants'并不小。

小大之辩未有定论时，最稳妥的选择当然是「全都要」了，这也是一众国内外友商们的共同选择：

模型	参数规模
Model A	135b, 1.8b
Model B	175b, 130b, 70b, 1b

Refs: [Reference].

节内小结：模型大型化和小型化趋势同时存在，关注变化，理性选择。

0x12 模型打哪来

怎么训练 LLM，最好的介绍莫过于官方文档。面向非科班的综述也有很多，就不拾人牙慧了，只整理一个 take-away 超级省流版：

GPT (Generative Pre-trained Transformer) 是 LLM 主流实现方式

步骤包含：UL (Unsupervised Learning) 预训练海量文本数据，以习得词汇、句子，及复杂的语义信息；

步骤包含：SFT (Supervised Fine-Tuning) 微调以适应特定任务，如指令识别、工具使用等；

可选包含：RLHF (Reward Learning from Human Feedback) 对齐 (Alignment) 输出到人类期望；

重新思考终端 LLMs 和 Agents

0x0 前言

0x1 Underlying LLMs

0x10 能力与限制

0x11 模型全家桶

0x12 模型打哪来

更多推荐文章

相关免费在线工具

0x13 模型往哪去

云端

终端

0x14 延伸问题：交互界面和硬件载体

专业软件

日常应用

角色扮演

0x2 Downstream Tasks

0x20 应用场景

0x21 Agent

0x22 Store

0x23 LLM OS 与端云协同

0x24 延伸问题：厂商模型

0x3 番外：新时代个人生存指南

更多推荐文章

相关免费在线工具

维度	场景
多模态理解和生成	内容理解。LLM 对语言的理解能力是毋庸置疑的，出错乌龙都有，但在部分测评中甚至强于人类战力标杆大学生的；多模态则是倍受期待的下一个方向。举一个激进一点儿的例子，虽然不一定靠谱，但敢想的确实已经在评估。
多模态理解和生成	安全风控。新闻文章、直播弹幕、商品评论都能搞，召回能准，除了明显的合规问题之外，适配地区法规，按照社区画风抓捕阴阳怪气也完全是能做到的。多模态同样值得期待。AIGC 时代的内容安全，AI 是缺不了席的。各个大厂的安全风控团队应当都是 LLM 的早期用户了，有效提升效率，降低人工成本。
多模态理解和生成	摘要总结。新闻摘要、弹幕精选、评论总结都很常见。
多模态理解和生成	辅助创作。画题图、写小说、写剧本、写代码、写邮件一应俱全，剪视频可能也就在远方不远了，刺激吗？除了生成新内容外，对已有内容的结构化整理也会十分有益，例如时间线、关系图等；还有对内容的审订，例如语法纠错、bug 识别等。
多模态理解和生成	语音合成。虽然可能不是 LLM based，不过相关且有意思，就还是贴上来。包含情绪的 TTS；风格迁移的 STS。声优妖怪们单刷全角色配音会不会不远了？番茄小说、微信读书会加上小说配音的情绪么？
多模态理解和生成	实时翻译。LLM 的翻译能力，尤其是俚语和上下文翻译上是要强于 Google Translate 的。你可能没听过，但我猜你大概率刷到过这就是流浪地球 II 的实时同声传译耳机啊，想要！
内建知识	问答系统。作为智能客服提供用户咨询、问题解答等服务，提高效果，节约人力。To C 的各家都在做，上线没上线就吃不准了；To D 的 … Oncall/WiKi GPT 还少嘛？
内建知识	交互式搜索。从某种意义上说，目前的搜索引擎们可能都还不能算作 LLM 意义上的交互式搜索，交互多是允许用户根据搜索的结果进行问答，而不是根据用户交互理解用户的意图，进而调整搜索的结果本身。
内建知识	教育辅导。为学生在学习过程中提供帮助，比如解答问题、提供学习材料等。在英语对话练习中，就提供了语法纠错和错误解析。
推理能力	角色扮演。除了上文提到的、和机器人之外，另一个被广泛关注的方向是数字人，搭一个 2D 纸片人 LLM Vtuber 已经有一打的开源 repo 和教程了。
推理能力	数据分析。医疗、教育、金融等行业都有需求，展示过 Excel 的报告分析能力，如果有行业知识参与模型 finetune，效果还可能更好。
推理能力	内容推荐。LLM 可以用于深化对用户兴趣和媒体消费习惯的理解，从而提供更精准的个性化内容推荐，相关探索可以参考。

重新思考终端 LLMs 和 Agents

0x0 前言

0x1 Underlying LLMs

0x10 能力与限制

0x11 模型全家桶

0x12 模型打哪来

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

0x13 模型往哪去

云端

终端

0x14 延伸问题：交互界面和硬件载体

专业软件

日常应用

角色扮演

0x2 Downstream Tasks

0x20 应用场景

0x21 Agent

0x22 Store

0x23 LLM OS 与端云协同

0x24 延伸问题：厂商模型

0x3 番外：新时代个人生存指南

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具