从零开始学AI--AI知识点扫盲

优质文章学习记录

05 Apr 2026 — 30 min read

前言

春节假期的小小震撼，外行都在讨论AI，想从中赚一笔，现在的AI应用80%内卷且无意义。所以做技术的并不感冒，毕竟日常接触很多了，更像是必然等到的老友，效率的提升并未解放任何劳动力，徒增了更多无谓的焦虑以及适应的痛苦，虽然偶尔带来那么一点点小惊喜。不过这么久了，冒出来的概念很多，眼花缭乱，导致有些许人装逼时，我像是个新兵蛋子，幸有Kimi，躺在床上无事，于是问答一波，以此记录。。。

AI大模型(LLM)的基本概念

一、当前主流AI大模型格局（2025年）

1.第一梯队：国际主流模型

模型	厂商	核心优势	典型应用场景
GPT-4.1 / GPT-5	OpenAI	100万token超长上下文、生态最完善、通用性最强	长文档分析、复杂对话、企业级应用
Claude 4 (Opus/Sonnet)	Anthropic	代码生成能力顶尖（SWE-bench 74.5%）、混合推理架构、安全性高	软件开发、代码重构、企业级安全场景
Gemini 2.5 Pro	Google	200万token超长上下文、原生多模态、成本极低	视频分析、大规模数据处理、多模态应用

关键性能对比：

代码生成：Claude 4 Opus 4.1以74.5%的SWE-bench分数领先，GPT-5 High为69.1%，Gemini 2.5 Pro为67.2%

多模态推理：GPT-5（思考模式）以91分领先，GPT-4.1为90分，Claude 4 Opus（思考模式）为83分

成本差异巨大：Gemini 2.5成本仅为Claude 4的1/30，GPT-4.1的1/500

2.国内主流模型

模型	厂商	特点	适用场景
DeepSeek-V3	DeepSeek	开源、性价比极高（输入$0.56/1M tokens）、长上下文	开发者工具、大规模部署、代码辅助
Qwen2-Plus	阿里	多语言处理强、综合能力领先	国际化业务、跨语言应用
豆包1.5 Pro	字节跳动	思考模式优化、中文场景适配好	内容创作、中文对话
Kimi-k1.5	月之暗面	长文本处理	文档分析、知识管理

RAG增强的基本概念

一、RAG是什么？

RAG = Retrieval-Augmented Generation（检索增强生成）

一句话定义

让大模型在回答问题前，先"查资料"再作答，而不是凭记忆"瞎编"

二、核心原理（三步流程）

用户提问 → 检索相关知识 → 结合知识生成回答

↓ ↓ ↓

查询向量数据库匹配 LLM组织语言

详细拆解：

阶段	操作	技术实现
1. 索引（Indexing）	将文档切片、转为向量、存入数据库	文本分割 + 嵌入模型（BERT/Sentence-BERT）+ 向量数据库（FAISS/Milvus）
2. 检索（Retrieval）	将用户问题向量化，匹配最相似的文档片段	近似最近邻搜索（ANNS）、语义相似度计算
3. 生成（Generation）	将检索到的知识作为上下文，输入LLM生成回答	提示工程（Prompt Engineering）

三、为什么需要RAG？

大模型原生痛点	RAG解决方案
知识过时（训练数据有截止日期）	实时检索最新文档
幻觉问题（编造不存在的信息）	基于检索到的真实文档生成，可追溯来源
缺乏专业领域知识	连接企业私有知识库
训练成本极高	无需重新训练模型，只需更新知识库

四、RAG vs 大模型微调（Fine-tuning）

这是企业定制AI的两种主流技术路线：

维度	RAG	微调（Fine-tuning）
核心逻辑	不改变模型，外挂知识库	改变模型参数，内化新知识
知识更新	实时更新（改文档即可）	需重新训练（耗时耗力）
成本	低（无需训练）	高（需算力、数据、时间）
延迟	较高（需检索过程）	低（直接推理）
适用场景	知识频繁更新、需精确溯源	领域固定、对延迟敏感
数据需求	原始文档即可	需标注好的训练数据
可解释性	高（可展示引用来源）	低（黑箱推理）

选型建议 ：

客服问答、企业文档查询 → RAG（知识更新快）
实时交易、自动驾驶 → 微调（延迟要求极低）

五、RAG在AI技术栈中的位置

根据技术层级划分：

┌─────────────────────────────────────┐ │ L5 应用层：智能客服、企业助手、搜索增强 │ ├─────────────────────────────────────┤ │ L4 Agent层：目标规划、工具调用、多轮协作 │ ├─────────────────────────────────────┤ │ L3 技能层：RAG（检索增强）、Function Calling │ ├─────────────────────────────────────┤ │ L2 模型层：GPT-4、Claude、DeepSeek（大脑）│ ├─────────────────────────────────────┤ │ L1 数据层：向量数据库、知识图谱、文档库 │ └─────────────────────────────────────┘

关键洞察 ：

RAG 是L3"技能层"的核心组件，给大模型装上"外接大脑"
Function Calling 给大模型装上"手"（调用工具）
Agent 是完整的人（大脑+手+目标+记忆）

六、RAG与AI Agent的关系

协作模式（以企业智能客服为例）

用户提问 ↓ Agent（智能体）接收任务，开始规划 ↓ 发现需要查公司内部政策 → 调用RAG技能 ↓ RAG去向量数据库检索相关文档片段 ↓ Agent将检索结果喂给LLM（大脑） ↓ LLM组织语言生成回答 ↓ 如果用户要求"重置密码" → Agent调用Function Calling操作数据库

关系本质

关系	说明
RAG是Agent的"知识技能"	Agent可以调用RAG作为工具之一
Agent是RAG的"调度者"	Agent决定何时使用RAG、何时使用其他工具
RAG让Agent更专业	没有RAG的Agent只能泛泛而谈，有了RAG才能回答专业问题
Agent让RAG更智能	Agent可以规划多步检索、验证结果、动态调整查询策略

进阶形态：Agentic RAG（智能体化RAG）

传统RAG是"一次检索，一次生成"，Agentic RAG是"多次检索，动态决策"：

传统RAG：用户问→检索→生成→结束
Agentic RAG：用户问→检索→发现信息不足→改写查询→再次检索→验证冲突→综合生成

七、RAG的典型应用场景

场景	实现方式	效果
企业知识库问答	上传PDF/Word/网页，RAG实时检索	员工问"报销流程"，AI基于最新制度准确回答
医疗辅助诊断	连接医学文献、病例库	减少幻觉，提供可溯源的诊断建议
智能客服	接入产品手册、FAQ	回答精准，可显示引用来源
代码助手	检索技术文档、API手册	生成基于最新SDK版本的代码
法律咨询	连接法规库、判例库	引用具体法条，避免过时信息

八、RAG的技术演进（2025年最新）

阶段	技术	特点
Naive RAG	基础向量检索	简单但召回精度有限
Advanced RAG	查询重写、混合检索、重排序	检索质量显著提升
Modular RAG	多检索源融合、自适应路由	灵活应对不同场景
GraphRAG	知识图谱+向量检索	支持多跳推理，理解实体关系
Agentic RAG	Agent动态规划检索策略	自主决策、迭代优化

九、一句话总结

RAG是给大模型"开卷考试"的能力，让它从"闭卷瞎编"变成"查资料作答"。在AI Agent架构中，RAG是Agent的"知识技能模块"，让Agent能回答专业、实时、可溯源的问题。

核心公式：

有效AI回答 = LLM（大脑） + RAG（查资料） + Function Calling（动手） + Agent（规划协调）

AI Agnet的基本概念

一、AI Agent(智能体)发展现状

Gartner将2025年称为"AI智能体元年"，标志着AI从对话交互（L1）迈向能自主思考与行动的智能体阶段（L3）。

核心特征演进

维度	传统Chatbot	AI Agent（2025）
交互模式	被动响应	主动分析需求、制定计划并执行
能力范围	单一对话	工具调用、多系统集成、端到端任务处理
记忆能力	单轮对话	长期记忆、上下文理解、多轮对话增强
协作方式	独立运行	多Agent协同、分布式智能体网络

技术架构关键升级

从Function Calling到Tool Calling ：

Function Calling：模型调用单个函数，适合简单、静态、无状态场景（如查天气）

Tool Calling：模型调用复杂工具实体（可包含数据库、Agent、文件系统），支持状态保持、嵌套调用、异步处理，是构建Agent的核心机制

二、主流AI Agent分类定位

首先，我们需要理解当前AI Agent的五层架构 ：

层级	名称	功能	代表产品
L1	平台层	算力分配、权限控制	Azure、火山引擎
L2	模型层	认知与决策（大脑）	GPT-4、Claude、GLM-4.5
L3	工具层	API调用、标准接口	MCP协议、Function Call
L4	执行层	任务规划、工具调用、自动执行	OpenClaw、Manus、AutoGPT
L5	应用层	Agent间协作、权限管理	扣子(Coze)、Moltbook

关键洞察：OpenClaw和Manus同属L4执行层，但设计理念完全相反；扣子(Coze)属于L5平台层，侧重生态构建而非直接执行。

三、OpenClaw vs 核心竞品对比

1. OpenClaw vs Manus AI（最直接的竞品）

两者是2026年最常被比较的Agent，但代表了开源本地 vs 商业云端两种路线：

维度	OpenClaw	Manus AI
核心定位	开源Agent框架（“数字员工操作系统”）	商业Agent平台（“托管虚拟员工服务”）
部署方式	本地运行（你的电脑/服务器）	云端沙盒（Meta服务器）
数据隐私	数据完全本地，不上传云端	数据流经Meta云服务器
定价模式	免费开源 + API按量付费（$5-50/月）	订阅制 + 信用点（$19-199/月）
技术门槛	需CLI安装配置，适合开发者	零配置，开箱即用
执行权限	可控制本地文件、应用、通讯软件	仅能操作云端环境，无法访问本地
定制能力	无限（1700+技能、可自定义）	有限（平台预定义工具）
通讯集成	15+平台（WhatsApp、Telegram、Discord、飞书等）	仅Web界面
并发任务	无限制（硬件决定）	1-10个（按套餐限制）
社区生态	18万+ GitHub Stars，MIT开源协议	闭源，Meta收购后商业化

一句话差异 ：

OpenClaw = “给你工具，你自己造AI员工”（控制力强，需技术）
Manus = “租用一个现成AI员工”（方便，但受限）

成本对比（月度）：

轻度使用：OpenClaw约$ 30-60 vs Manus $39
重度使用：OpenClaw约$ 300-750 vs Manus $199（但易超额）
关键差异：OpenClaw可通过免费API额度实现$0成本，Manus订阅费不可免

2. OpenClaw vs AutoGPT（早期Agent代表）

AutoGPT是2023年引爆Agent概念的项目，但两者定位截然不同：

维度	OpenClaw	AutoGPT
产品形态	生产级日常助手	开发者实验框架
稳定性	生产级，7×24心跳监控	实验性，频繁崩溃
使用界面	聊天软件（WhatsApp等）	CLI/开发者界面
设置时间	~30分钟	数小时至数天
通讯能力	15+平台原生集成	无，需自行开发
目标用户	开发者+普通用户	纯开发者
当前状态	活跃维护，18万Stars	早期热度退潮

关键差异 ：

“AutoGPT是开发者工具包，OpenClaw是日常驾驶工具。我花了一个周末搭建AutoGPT，花30分钟搭建OpenClaw，现在OpenClaw还在运行。”

3. OpenClaw vs 智谱AutoGLM（移动端Agent）

AutoGLM是全球首个具备"Phone Use"能力的手机Agent，与OpenClaw形成移动端 vs 桌面端的互补：

维度	OpenClaw	智谱AutoGLM
核心场景	桌面端自动化（电脑操作）	移动端自动化（手机操作）
技术架构	本地程序 + 多平台通讯	云端虚拟手机 + ADB指令
操作方式	调用API、控制软件、执行代码	模拟人类点击、滑动、输入
视觉能力	依赖大模型通用视觉	专门优化的9B视觉语言模型
应用覆盖	通用软件、开发工具、浏览器	微信、淘宝、抖音、美团等50+中文App
执行环境	用户本地设备	云端虚拟手机（不占用本地资源）
隐私方案	数据本地存储	云端隔离，敏感操作需二次确认
开源程度	完全开源（MIT）	部分开源（模型+框架）
代表能力	“整理桌面文件并发送邮件”	“打开美团点一杯瑞幸咖啡”

技术差异 ：

OpenClaw：通过系统级API和工具调用实现自动化，适合复杂数据处理
AutoGLM：通过"视觉+ADB"模拟真人操作，无需App开放接口，应用无法区分是人类还是AI在操作

性能对比 ：

AutoGLM完成美团外卖点单仅需92秒，较真人操作效率提升70%
跨3平台完成32K显示器比价耗时1分44秒，精准度达89.7%

4. OpenClaw vs 字节扣子(Coze)（平台级Agent）

扣子属于L5平台层，与OpenClaw的L4执行层是生态位差异 ：

维度	OpenClaw	字节扣子(Coze)
核心定位	个人/企业级执行Agent	Agent开发平台 + 生态市场
使用方式	直接作为员工使用	构建Agent后分发使用
目标用户	终端用户、技术极客	开发者、企业、ISV
代码控制	完全自主（开源）	基于开源框架定制
部署模式	本地/私有服务器	云端SaaS + 可私有化部署
核心功能	任务执行、工具调用	可视化编排、工作流设计、多Agent协作
模型支持	任意模型（Claude、GPT、DeepSeek等）	主要集成豆包大模型
商业模式	免费软件+API成本	平台服务+企业定制

扣子2.0新特性（2026年1月）：

Agent Skills：将场景最佳实践封装（如营销文案调用AIDA模型）
Agent Plan：长期任务执行（如"运营自媒体账号"可持续数月）
Agent Office：深度办公场景（Word报告、PPT、Excel处理）
扣子编程：自然语言开发环境（Vibe Coding）

关键差异 ：

OpenClaw是"Agent本身"，扣子是"制造Agent的工厂"。

四、综合对比矩阵

Agent	类型	最佳场景	技术门槛	隐私控制	成本	自主性
OpenClaw	开源执行框架	本地自动化、隐私敏感任务	中（需CLI）	⭐⭐⭐⭐⭐	低（$0-50/月）	高
Manus	商业云Agent	快速任务外包、非技术用户	低	⭐⭐	中-高（$19-199/月）	中
AutoGLM	移动端Agent	手机App操作、生活场景	低	⭐⭐⭐⭐	免费	高
扣子(Coze)	Agent平台	企业级应用开发、工作流编排	中-高	⭐⭐⭐	企业定价	中
AutoGPT	实验框架	研究、原型验证	高	⭐⭐⭐⭐	免费	低（不稳定）

五、选型决策指南

选择OpenClaw如果你：

✅ 重视数据隐私（金融、医疗、法律行业）

✅ 需要深度定制（连接内部系统、自定义工作流）

✅ 希望控制长期成本（避免SaaS订阅费）

✅ 团队有技术能力（能接受CLI操作）

✅ 需要7×24小时持续运行（本地Daemon模式）

✅ 想通过聊天软件指挥AI（WhatsApp、飞书等）

选择Manus如果你：

✅ 不想碰技术（零配置开箱即用）

✅ 需要快速完成研究/分析任务（偶尔使用）

✅ 追求云端的便利性（不占用本地资源）

✅ 能接受Meta处理你的数据

选择AutoGLM如果你：

✅ 主要场景在移动端（手机App操作）

✅ 需要操作微信、淘宝等封闭生态App

✅ 希望不占用手机性能（云端执行）

选择扣子(Coze)如果你：

✅ 需要构建企业级Agent应用（而非直接使用）

✅ 重视可视化开发（低代码/无代码）

✅ 需要多Agent协作生态

六、未来趋势判断

OpenClaw模式将主导企业市场 ：受监管行业（金融、医疗）必须本地部署，开源+私有化的OpenClaw路线更符合合规要求
移动端Agent爆发：AutoGLM代表的"视觉+模拟操作"路线，解决了App不开放API的痛点，将成为手机标配
平台与执行分离：扣子(Coze)等L5平台负责生态构建，OpenClaw等L4框架负责执行，形成分工
成本结构重构：OpenClaw的"免费软件+按量API"模式，正在冲击Manus的"订阅+信用点"模式

** 结论**：OpenClaw的核心竞争力在于"极端的透明度和控制力"——代码开源、数据本地、模型自选、成本可控。这使其成为对隐私敏感、需要深度定制的用户和企业的首选，但也要求更高的技术投入。相比之下，其他Agent在便利性、特定场景（移动端）或平台生态上各有优势，形成差异化竞争格局。

LLM与AI Agent的关系

一、本质关系

大模型是"大脑"，智能体是"完整的人"

维度	大模型 (LLM)	AI智能体 (Agent)
核心定位	静态知识容器	动态行动系统
能力边界	理解&生成内容	感知→决策→执行闭环
主动性	被动响应（需人类驱动）	主动规划并行动
工具使用	仅生成建议，不直接操作	可调用API、控制软件、操作硬件
记忆能力	无长期记忆（除非外挂）	持久化记忆（用户偏好、历史交互）
目标导向	无内在目标	有明确目标并自主达成

二、技术架构：从"单一模块"到"系统工程"

大模型：智能体的"认知基座"

大模型（如GPT-4、Claude、DeepSeek）是基于Transformer架构的预训练模型，通过海量数据获得：

语言理解与生成能力
逻辑推理与知识整合
多模态内容处理

关键局限：它只是一个"高智商的顾问"——能告诉你"怎么做"，但无法"帮你做" 。

智能体：大模型的"能力放大器"

智能体通过架构设计，将大模型从"文本生成器"转变为"任务执行者"：

┌─────────────────────────────────────────┐ │ AI Agent 架构 │ ├─────────────────────────────────────────┤ │ 感知层 → 接收环境信息（用户输入、传感器数据）│ ├─────────────────────────────────────────┤ │ 决策层 → 大模型（大脑）负责理解、推理、规划 │ ├─────────────────────────────────────────┤ │ 执行层 → 工具调用（API、数据库、软件控制） │ ├─────────────────────────────────────────┤ │ 记忆层 → 长期记忆存储（向量数据库、知识图谱）│ ├─────────────────────────────────────────┤ │ 反馈环 → 执行结果观察→动态调整策略 │ └─────────────────────────────────────────┘

核心公式：Agent = LLM（大脑） + 工具（手脚） + 记忆 + 规划能力

三、技术生态中的位置

┌────────────────────────────────────────┐ │ 应用层 (Applications) │ │ 智能客服 │ 代码助手 │ 自动驾驶 │ RPA │ ├────────────────────────────────────────┤ │ 智能体层 (Agent Layer) │ │ 规划模块 │ 记忆系统 │ 工具调用 │ 反馈环 │ ├────────────────────────────────────────┤ │ 大模型层 (LLM Layer) │ │ GPT-5 │ Claude 4 │ DeepSeek │ Gemini │ ├────────────────────────────────────────┤ │ 基础设施层 (Infrastructure) │ │ 算力集群 │ 向量数据库 │ API网关 │ 云平台 │ └────────────────────────────────────────┘

关键协议：MCP（Model Context Protocol）正在成为Agent调用工具的标准"USB-C接口"，让大模型与外部工具的连接标准化。

四、三代技术演进：从"能说"到"能做"

AI应用架构经历了清晰的演进路径：

代际	代表产品	特征	能力边界
第一代：裸LLM	ChatGPT、DeepSeek、Claude	仅能文本对话，无执行能力	告诉你"怎么做"
第二代：Workflow	Dify、Coze、扣子等	预设流程，大模型按节点执行	按剧本"帮你做"
第三代：Agent	Manus、OpenAI Operator、AutoGPT	LLM自主规划、选工具、调策略	自己想办法"做出来"

关键差异：

Workflow：人类设计流程图，大模型是流程中的"文本处理节点"
Agent：大模型自己决定流程，动态选择工具，应对未知情况

五、共生关系：相互成就的双螺旋

大模型赋能智能体的三大路径

赋能维度	具体作用	示例
认知增强	自然语言理解，替代 rigid 规则引擎	客服Agent理解用户模糊需求："我手机坏了"→定位电池问题
决策优化	复杂场景推理，动态调整策略	金融Agent预测市场波动，优化交易策略
能力扩展	作为核心模块整合到系统中	智慧城市Agent调用大模型分析路况，协调无人机巡逻

智能体反哺大模型

价值实现：将大模型的知识转化为实际业务价值

数据飞轮：智能体执行过程中产生的新数据，可用于优化大模型

场景验证：通过实际任务反馈，检验大模型能力的边界

六、典型对比：同一任务的不同处理方式

以"分析上月销售数据并生成报告"为例：

方式	处理流程	结果
纯大模型	生成文本建议：“你需要整理销量表格、计算环比增长率…”	仅提供操作指南，需人工执行
RAG增强	检索历史数据→生成分析报告	报告内容更准确，但仍需人工整理格式
AI Agent	1. 调用Excel读取数据 2. 用Python计算增长率 3. 自动生成图表 4. 撰写结论并发送邮件	全程自动，输出可直接使用的报告

AI智能体的发展

一、主要应用场景

企业级办公与业务流程自动化

场景	应用方式	价值体现
财务自动化	智能体自动从邮件提取发票、校验合规性、发起审批、生成报表	全流程无人干预，降低基础人力投入
HR招聘	自动筛选简历、安排面试、跟进反馈	压缩日常事务时间，提升协作体验
法务合同	几分钟内起草合同草案，检索判例进行风险提示	专业级辅助，降低法律风险
IT运维	自动检测代码Bug并提交修复补丁	提升开发效率，减少故障时间

金融行业（应用成熟度最高）

智能风控：自动化建模、实时风险监测与预警、动态策略调整
智能投顾：分析海量金融数据，提供个性化投资建议
信贷审批：从资料收集到审批建议生成的全流程自动化
反欺诈：实时分析交易行为，识别异常模式

案例：天弘基金已开发基于大模型的金融AI Agent，解决传统大模型训练时缺乏时效性的问题

零售与电商

环节	Agent能力	效果
智能客服	7×24小时服务、情感计算识别情绪波动、动态调整话术	提升转化率，降低人力成本
精准营销	语义分析识别购买意图、个性化方案推荐	实现"金牌销售"级服务
库存管理	预测市场需求、智能补货建议、动态调整库存	降低积压和缺货风险

软件开发与编程辅助

Claude 4在代码生成领域确立绝对优势：

构建完整Tetris游戏（含游戏逻辑、界面、控制）
创建2D马里奥游戏（含关卡、怪物、道具系统）
多文件代码重构与优化能力

适用工具：GitHub Copilot（基于Claude）、Cursor、Windsurf等

内容创作与媒体

文本生成：爆款标题创作、长文撰写、多语言翻译
图像生成：即梦、可灵、豆包等文生图工具，支持水墨画、赛博朋克、吉卜力等风格
视频生成：可灵、Runway等实现文本/图像生成视频

游戏与娱乐

个性化NPC：英伟达ACE for Games使NPC能实时自然语言对话（已集成至《绝地求生》）
动态难度调整：根据玩家行为实时调整游戏策略和强度
千人千面体验：基于玩家画像提供个性化内容

政务与公共服务

智能问政：一站式智能服务平台，自动解答政策咨询
智能助民：办事流程引导、材料预审、进度跟踪
多智能体协同：复杂民生问题自动分派至对应部门Agent处理

二、选型建议

需求场景	推荐模型/方案	理由
代码开发	Claude 4 或 Claude 3.7 Sonnet	代码质量最高，减少Debug时间
长文档处理	Gemini 2.5 Pro 或 GPT-4.1	200万/100万token上下文，成本可控
多模态应用	Gemini 2.5 Pro	原生多模态，视频图像处理能力强
企业安全合规	Claude 4	安全设计增强，适合敏感场景
预算敏感型项目	DeepSeek-V3 或 Gemini 2.5	成本极低，适合大规模部署
快速构建Agent	GPT-4o + Tool Calling	生态完善，工具集成度高

三、未来趋势

从单Agent到多Agent协同：复杂任务解耦为可并行处理的子模块，实现"1+1>2"的涌现效应
云端智能体普及：依托云计算弹性资源，加速在政务、金融、教育等行业落地
成本持续下降：Gemini 2.5已将成本压至极低水平，推动AI应用普惠化
垂直领域深度适配：医疗、法律、制造等专业领域Agent将更加成熟

2025年，AI Agent已从概念验证走向产业落地，企业级市场正从"助手"向"自动化引擎"升级，个人用户也能通过低代码平台快速创建专属智能体。

OpenClaw（近期爆火的开源AI Agent）

OpenClaw 是2026年初GitHub上增长最快的开源项目之一，3周内Star数从0飙升至18万+（相比之下，React用了8年才达到10万Star）。这是一个真正能"动手干活"的AI智能体，而非仅仅对话的聊天机器人。

核心定位

维度	传统AI聊天工具	OpenClaw
交互方式	问答式对话	任务委托 + 主动汇报
执行能力	仅生成文本建议	真实操作系统和应用
运行位置	云端服务	本地设备（你的电脑/服务器）
记忆能力	会话级（单次对话）	持久化长期记忆

技术架构

OpenClaw采用六阶段流水线设计：

用户消息 → Channel Adapter → Gateway Server → Lane Queue → Agent Runner → Agentic Loop → Tool Execution

四大核心模块：

Gateway（网关）：统一接入WhatsApp、Telegram、Discord、飞书等10+通讯平台
Agent（大脑）：理解意图、制定计划、调用工具（支持Claude、GPT、DeepSeek等模型）
Skills（技能）：可扩展的能力插件，如邮件处理、浏览器控制、文件管理等
Memory（记忆）：跨会话的持久化记忆，让AI"越用越懂你"

核心能力

1. 真正的系统操作权限

读写本地文件系统
执行Shell命令
控制浏览器自动化（填写表单、抓取数据）
在安全沙箱中运行代码

2. 多平台接入
支持通过日常聊天软件随时指挥：

国外：WhatsApp、Telegram、Discord、Slack、iMessage、Signal
国内：飞书、钉钉（需配置）

3. 持久化记忆

记住你的偏好、工作习惯
三个月前的任务中断后可以继续
跨Agent共享记忆

4. 定时任务与主动执行

设置定时任务（如"每周一整理上周销售数据"）
主动监控和汇报（如"监控网站状态，宕机时通知我"）

典型应用场景

场景	具体示例
开发辅助	自动检测代码Bug并修复、部署网站、抓取数据
办公自动化	整理桌面文件、筛选回复邮件、生成周报并发送
信息搜集	监控竞品动态、抓取小红书/推特内容、整理成报告
生活助手	自动值机、预约医生、处理报销、管理日程
内容创作	自动发布社交媒体、管理内容日历

与类似工具对比

工具	类型	核心差异
OpenClaw	AI Agent平台	本地运行、多平台接入、能实际操作电脑
ChatGPT	对话AI	仅提供建议，不能执行操作
Cursor	AI编程助手	仅在IDE内工作，无法跨系统操作
智谱AutoGLM	移动端Agent	专注安卓设备视觉识别和触控模拟

部署方式

本地部署（隐私优先）：

运行在Mac mini、Windows电脑或Linux服务器上
数据完全本地存储，不上传云端
适合对隐私要求高的用户

云端部署（7×24小时在线）：

部署在VPS或云服务器（如Zeabur、火山引擎）
不占用本地电脑资源，随时可用
通过Tailscale等私有网络保障安全

安全考量

由于OpenClaw拥有操作系统级权限，也带来安全风险：

敏感信息外泄：可能误发本地数据
高危操作：可能执行破坏性命令（如rm -rf）
远程控制：被恶意利用成为攻击入口

应对方案：

使用沙箱环境隔离执行
设置指令过滤和白名单
启用人工审批机制
火山引擎等云厂商已推出专门的安全防护方案

创始人与社区

创始人：Peter Steinberger（奥地利工程师，PSPDFKit创始人）
吉祥物：龙虾（🦞）
更名历程：Clawdbot → Moltbot → OpenClaw（因商标问题多次改名）
最新动态：2026年2月14日，创始人加入OpenAI，OpenClaw转向独立基金会运营

Seedance

Seedance 是字节跳动旗下 Seed团队 研发的 AI视频生成大模型，定位为"电影级全流程生成引擎" 。

核心定位

技术路线：基于扩散模型（Diffusion Model）的多模态视频生成
目标：实现"从0到1"的电影级视频生成，让"人人皆导演"
平台载体：集成于字节跳动的 即梦（Dreamina） AI创作平台

技术迭代历程

版本	发布时间	核心能力
Seedance 1.0	2025年初	基础文生视频，720p分辨率，快速草稿
Seedance 1.0 Pro	2025年中	1080p分辨率，增加图生视频，10秒时长
Seedance 1.5	2025年末	1080p高清+同步音频，电影级质感
Seedance 2.0	2026年2月	四模态输入、15秒长视频、原生音画同步、多镜头叙事

Seedance 2.0 的核心突破（2026年2月发布）

Seedance 2.0 被视为 “2026开年第一技术王炸”，标志着AI视频从"玩具级演示"迈入"工业生产力阶段" 。

七大核心能力

能力	说明	技术细节
🎬 电影级画质	原生1080p/2K，专业景深与动态模糊	Pro版支持2K分辨率
🔊 音画同步生成	同步输出音效、对白、配乐，口型精准匹配	双分支扩散变换器架构，支持中英粤多语言
🎞️ 多镜头叙事	自动切换广角/中景/特写，保持角色一致性	自动分镜与运镜规划
📎 四模态输入	支持12个参考文件（9图+3视频+3音频）	通过`@素材名`精准控制
👤 角色一致性	跨镜头保持面部、服装、光影统一	ID-Lora技术，解决"变脸"问题
🌊 物理真实感	真实重力、惯性、流体效果	严格遵循物理定律（如花样滑冰动作）
⚡ 极速生成	2分钟产出5-10秒视频	生成速度提升30%

与Sora 2的对比

生成质量：被《黑神话：悟空》制作人冯骥称为"当前地表最强的视频生成模型，没有之一"
可用率：超过90%，远高于行业平均水平
成本重构：5人团队3天的工作 → 单人30分钟完成，60秒视频成本从近万元降至算力支出

Seedance vs 即梦 vs 可灵：三者关系

这是最容易混淆的部分，三者是**“模型-平台-竞品”**的三角关系：

关系图解

┌─────────────────────────────────────────┐ │ 字节跳动生态 │ ├─────────────────────────────────────────┤ │ Seedance（模型层） │ │ └── 即梦/Dreamina（平台层） │ │ └── 面向C端用户 │ ├─────────────────────────────────────────┤ │ 快手可灵（竞品模型+平台） │ │ └── 快手生态 │ └─────────────────────────────────────────┘

详细对比

维度	Seedance	即梦（Dreamina）	可灵（Kling）
本质	AI视频生成大模型（技术底座）	AI创作平台（应用载体）	AI视频生成大模型+平台（快手出品）
开发者	字节跳动Seed团队	字节跳动	快手
关系	即梦内置Seedance模型	即梦调用Seedance等模型	与Seedance竞争关系
核心优势	多镜头叙事、音画同步、角色一致性	一站式创作工具（视频+图片+音乐）	电影质感、精细表情、皮肤细节、动作控制
目标用户	通过即梦平台触达C端	普通创作者、设计师	专业内容生产者
使用方式	在即梦平台选择"Seedance 2.0"模型	即梦平台提供多种模型可选	可灵独立平台/快手生态
定价	即梦平台内按积分消耗	免费额度+订阅制	免费额度+会员制

一句话区分

Seedance = “发动机”（核心技术）
即梦 = “整车”（用户接触的平台，可换不同发动机）
可灵 = “另一品牌的发动机+整车”（快手竞品）

关键洞察 ：

“Seedance更侧重于帮用户表达一个故事，可灵则更侧重专业级别的内容生产”

前言

AI大模型(LLM)的基本概念

一、当前主流AI大模型格局（2025年）

1.第一梯队：国际主流模型

2.国内主流模型

RAG增强的基本概念

一、RAG是什么？

二、核心原理（三步流程）

三、为什么需要RAG？

四、RAG vs 大模型微调（Fine-tuning）

五、RAG在AI技术栈中的位置

六、RAG与AI Agent的关系

七、RAG的典型应用场景

八、RAG的技术演进（2025年最新）

九、一句话总结

AI Agnet的基本概念

一、AI Agent(智能体)发展现状

二、主流AI Agent分类定位

三、OpenClaw vs 核心竞品对比

1. OpenClaw vs Manus AI（最直接的竞品）

2. OpenClaw vs AutoGPT（早期Agent代表）

3. OpenClaw vs 智谱AutoGLM（移动端Agent）

4. OpenClaw vs 字节扣子(Coze)（平台级Agent）

四、综合对比矩阵

五、选型决策指南

六、未来趋势判断

LLM与AI Agent的关系

一、本质关系

二、技术架构：从"单一模块"到"系统工程"

三、技术生态中的位置

四、三代技术演进：从"能说"到"能做"

五、共生关系：相互成就的双螺旋

六、典型对比：同一任务的不同处理方式

AI智能体的发展

一、主要应用场景

二、选型建议

三、未来趋势

OpenClaw（近期爆火的开源AI Agent）

核心定位

技术架构

核心能力

典型应用场景

与类似工具对比

部署方式

安全考量

创始人与社区

Seedance

核心定位

技术迭代历程

Seedance 2.0 的核心突破（2026年2月发布）

七大核心能力

与Sora 2的对比

Seedance vs 即梦 vs 可灵：三者关系

关系图解

详细对比

一句话区分

Read more

Claude Code Viewer: 打造 Web 端 Claude Code 会话管理利器

【芯片解读】TI AFE5816：16通道超声波模拟前端 (AFE) 深度详解

【粉丝福利社】扣子（Coze） Skills+OpenClaw 实战：零基础玩转AI智能体

前端拖拽交互实现：别再只会用原生拖拽了