从零开始学AI--AI知识点扫盲

从零开始学AI--AI知识点扫盲

前言

春节假期的小小震撼,外行都在讨论AI,想从中赚一笔,现在的AI应用80%内卷且无意义。所以做技术的并不感冒,毕竟日常接触很多了,更像是必然等到的老友,效率的提升并未解放任何劳动力,徒增了更多无谓的焦虑以及适应的痛苦,虽然偶尔带来那么一点点小惊喜。不过这么久了,冒出来的概念很多,眼花缭乱,导致有些许人装逼时,我像是个新兵蛋子,幸有Kimi,躺在床上无事,于是问答一波,以此记录。。。

AI大模型(LLM)的基本概念

一、当前主流AI大模型格局(2025年)

1.第一梯队:国际主流模型
模型厂商核心优势典型应用场景
GPT-4.1 / GPT-5OpenAI100万token超长上下文、生态最完善、通用性最强长文档分析、复杂对话、企业级应用
Claude 4 (Opus/Sonnet)Anthropic代码生成能力顶尖(SWE-bench 74.5%)、混合推理架构、安全性高软件开发、代码重构、企业级安全场景
Gemini 2.5 ProGoogle200万token超长上下文、原生多模态、成本极低视频分析、大规模数据处理、多模态应用

关键性能对比:

代码生成:Claude 4 Opus 4.1以74.5%的SWE-bench分数领先,GPT-5 High为69.1%,Gemini 2.5 Pro为67.2%

多模态推理:GPT-5(思考模式)以91分领先,GPT-4.1为90分,Claude 4 Opus(思考模式)为83分

成本差异巨大:Gemini 2.5成本仅为Claude 4的1/30,GPT-4.1的1/500

2.国内主流模型
模型厂商特点适用场景
DeepSeek-V3DeepSeek开源、性价比极高(输入$0.56/1M tokens)、长上下文开发者工具、大规模部署、代码辅助
Qwen2-Plus阿里多语言处理强、综合能力领先国际化业务、跨语言应用
豆包1.5 Pro字节跳动思考模式优化、中文场景适配好内容创作、中文对话
Kimi-k1.5月之暗面长文本处理文档分析、知识管理

RAG增强的基本概念

一、RAG是什么?

RAG = Retrieval-Augmented Generation(检索增强生成)

一句话定义

让大模型在回答问题前,先"查资料"再作答,而不是凭记忆"瞎编"

二、核心原理(三步流程)

用户提问 → 检索相关知识 → 结合知识生成回答

↓ ↓ ↓

查询 向量数据库匹配 LLM组织语言

详细拆解:

阶段操作技术实现
1. 索引(Indexing)将文档切片、转为向量、存入数据库文本分割 + 嵌入模型(BERT/Sentence-BERT)+ 向量数据库(FAISS/Milvus)
2. 检索(Retrieval)将用户问题向量化,匹配最相似的文档片段近似最近邻搜索(ANNS)、语义相似度计算
3. 生成(Generation)将检索到的知识作为上下文,输入LLM生成回答提示工程(Prompt Engineering)

三、为什么需要RAG?

大模型原生痛点RAG解决方案
知识过时(训练数据有截止日期)实时检索最新文档
幻觉问题(编造不存在的信息)基于检索到的真实文档生成,可追溯来源
缺乏专业领域知识连接企业私有知识库
训练成本极高无需重新训练模型,只需更新知识库

四、RAG vs 大模型微调(Fine-tuning)

这是企业定制AI的两种主流技术路线:

维度RAG微调(Fine-tuning)
核心逻辑不改变模型,外挂知识库改变模型参数,内化新知识
知识更新实时更新(改文档即可)需重新训练(耗时耗力)
成本低(无需训练)高(需算力、数据、时间)
延迟较高(需检索过程)低(直接推理)
适用场景知识频繁更新、需精确溯源领域固定、对延迟敏感
数据需求原始文档即可需标注好的训练数据
可解释性高(可展示引用来源)低(黑箱推理)

选型建议

  • 客服问答、企业文档查询 → RAG(知识更新快)
  • 实时交易、自动驾驶 → 微调(延迟要求极低)

五、RAG在AI技术栈中的位置

根据技术层级划分 :

┌─────────────────────────────────────┐ │ L5 应用层:智能客服、企业助手、搜索增强 │ ├─────────────────────────────────────┤ │ L4 Agent层:目标规划、工具调用、多轮协作 │ ├─────────────────────────────────────┤ │ L3 技能层:RAG(检索增强)、Function Calling │ ├─────────────────────────────────────┤ │ L2 模型层:GPT-4、Claude、DeepSeek(大脑)│ ├─────────────────────────────────────┤ │ L1 数据层:向量数据库、知识图谱、文档库 │ └─────────────────────────────────────┘ 

关键洞察

  • RAG 是L3"技能层"的核心组件,给大模型装上"外接大脑"
  • Function Calling 给大模型装上""(调用工具)
  • Agent 是完整的人(大脑+手+目标+记忆)

六、RAG与AI Agent的关系

协作模式(以企业智能客服为例)

用户提问 ↓ Agent(智能体)接收任务,开始规划 ↓ 发现需要查公司内部政策 → 调用RAG技能 ↓ RAG去向量数据库检索相关文档片段 ↓ Agent将检索结果喂给LLM(大脑) ↓ LLM组织语言生成回答 ↓ 如果用户要求"重置密码" → Agent调用Function Calling操作数据库 

关系本质

关系说明
RAG是Agent的"知识技能"Agent可以调用RAG作为工具之一
Agent是RAG的"调度者"Agent决定何时使用RAG、何时使用其他工具
RAG让Agent更专业没有RAG的Agent只能泛泛而谈,有了RAG才能回答专业问题
Agent让RAG更智能Agent可以规划多步检索、验证结果、动态调整查询策略

进阶形态:Agentic RAG(智能体化RAG)

传统RAG是"一次检索,一次生成",Agentic RAG是"多次检索,动态决策":

  • 传统RAG:用户问→检索→生成→结束
  • Agentic RAG:用户问→检索→发现信息不足→改写查询→再次检索→验证冲突→综合生成

七、RAG的典型应用场景

场景实现方式效果
企业知识库问答上传PDF/Word/网页,RAG实时检索员工问"报销流程",AI基于最新制度准确回答
医疗辅助诊断连接医学文献、病例库减少幻觉,提供可溯源的诊断建议
智能客服接入产品手册、FAQ回答精准,可显示引用来源
代码助手检索技术文档、API手册生成基于最新SDK版本的代码
法律咨询连接法规库、判例库引用具体法条,避免过时信息

八、RAG的技术演进(2025年最新)

阶段技术特点
Naive RAG基础向量检索简单但召回精度有限
Advanced RAG查询重写、混合检索、重排序检索质量显著提升
Modular RAG多检索源融合、自适应路由灵活应对不同场景
GraphRAG知识图谱+向量检索支持多跳推理,理解实体关系
Agentic RAGAgent动态规划检索策略自主决策、迭代优化

九、一句话总结

RAG是给大模型"开卷考试"的能力,让它从"闭卷瞎编"变成"查资料作答"。在AI Agent架构中,RAG是Agent的"知识技能模块",让Agent能回答专业、实时、可溯源的问题。

核心公式

有效AI回答 = LLM(大脑) + RAG(查资料) + Function Calling(动手) + Agent(规划协调) 

AI Agnet的基本概念

一、AI Agent(智能体)发展现状

Gartner将2025年称为"AI智能体元年",标志着AI从对话交互(L1)迈向能自主思考与行动的智能体阶段(L3)。

核心特征演进

维度传统ChatbotAI Agent(2025)
交互模式被动响应主动分析需求、制定计划并执行
能力范围单一对话工具调用、多系统集成、端到端任务处理
记忆能力单轮对话长期记忆、上下文理解、多轮对话增强
协作方式独立运行多Agent协同、分布式智能体网络

技术架构关键升级

从Function Calling到Tool Calling :

Function Calling:模型调用单个函数,适合简单、静态、无状态场景(如查天气)

Tool Calling:模型调用复杂工具实体(可包含数据库、Agent、文件系统),支持状态保持、嵌套调用、异步处理,是构建Agent的核心机制

二、主流AI Agent分类定位

首先,我们需要理解当前AI Agent的五层架构

层级名称功能代表产品
L1平台层算力分配、权限控制Azure、火山引擎
L2模型层认知与决策(大脑)GPT-4、Claude、GLM-4.5
L3工具层API调用、标准接口MCP协议、Function Call
L4执行层任务规划、工具调用、自动执行OpenClaw、Manus、AutoGPT
L5应用层Agent间协作、权限管理扣子(Coze)、Moltbook

关键洞察:OpenClaw和Manus同属L4执行层,但设计理念完全相反;扣子(Coze)属于L5平台层,侧重生态构建而非直接执行。

三、OpenClaw vs 核心竞品对比

1. OpenClaw vs Manus AI(最直接的竞品)

两者是2026年最常被比较的Agent,但代表了开源本地 vs 商业云端两种路线 :

维度OpenClawManus AI
核心定位开源Agent框架(“数字员工操作系统”)商业Agent平台(“托管虚拟员工服务”)
部署方式本地运行(你的电脑/服务器)云端沙盒(Meta服务器)
数据隐私数据完全本地,不上传云端数据流经Meta云服务器
定价模式免费开源 + API按量付费($5-50/月)订阅制 + 信用点($19-199/月)
技术门槛需CLI安装配置,适合开发者零配置,开箱即用
执行权限可控制本地文件、应用、通讯软件仅能操作云端环境,无法访问本地
定制能力无限(1700+技能、可自定义)有限(平台预定义工具)
通讯集成15+平台(WhatsApp、Telegram、Discord、飞书等)仅Web界面
并发任务无限制(硬件决定)1-10个(按套餐限制)
社区生态18万+ GitHub Stars,MIT开源协议闭源,Meta收购后商业化

一句话差异

  • OpenClaw = “给你工具,你自己造AI员工”(控制力强,需技术)
  • Manus = “租用一个现成AI员工”(方便,但受限)

成本对比(月度):

  • 轻度使用:OpenClaw约$ 30-60 vs Manus $39
  • 重度使用:OpenClaw约$ 300-750 vs Manus $199(但易超额)
  • 关键差异:OpenClaw可通过免费API额度实现$0成本,Manus订阅费不可免
2. OpenClaw vs AutoGPT(早期Agent代表)

AutoGPT是2023年引爆Agent概念的项目,但两者定位截然不同 :

维度OpenClawAutoGPT
产品形态生产级日常助手开发者实验框架
稳定性生产级,7×24心跳监控实验性,频繁崩溃
使用界面聊天软件(WhatsApp等)CLI/开发者界面
设置时间~30分钟数小时至数天
通讯能力15+平台原生集成无,需自行开发
目标用户开发者+普通用户纯开发者
当前状态活跃维护,18万Stars早期热度退潮

关键差异

“AutoGPT是开发者工具包,OpenClaw是日常驾驶工具。我花了一个周末搭建AutoGPT,花30分钟搭建OpenClaw,现在OpenClaw还在运行。”
3. OpenClaw vs 智谱AutoGLM(移动端Agent)

AutoGLM是全球首个具备"Phone Use"能力的手机Agent,与OpenClaw形成移动端 vs 桌面端的互补 :

维度OpenClaw智谱AutoGLM
核心场景桌面端自动化(电脑操作)移动端自动化(手机操作)
技术架构本地程序 + 多平台通讯云端虚拟手机 + ADB指令
操作方式调用API、控制软件、执行代码模拟人类点击、滑动、输入
视觉能力依赖大模型通用视觉专门优化的9B视觉语言模型
应用覆盖通用软件、开发工具、浏览器微信、淘宝、抖音、美团等50+中文App
执行环境用户本地设备云端虚拟手机(不占用本地资源)
隐私方案数据本地存储云端隔离,敏感操作需二次确认
开源程度完全开源(MIT)部分开源(模型+框架)
代表能力“整理桌面文件并发送邮件”“打开美团点一杯瑞幸咖啡”

技术差异

  • OpenClaw:通过系统级API和工具调用实现自动化,适合复杂数据处理
  • AutoGLM:通过"视觉+ADB"模拟真人操作,无需App开放接口,应用无法区分是人类还是AI在操作

性能对比

  • AutoGLM完成美团外卖点单仅需92秒,较真人操作效率提升70%
  • 跨3平台完成32K显示器比价耗时1分44秒,精准度达89.7%
4. OpenClaw vs 字节扣子(Coze)(平台级Agent)

扣子属于L5平台层,与OpenClaw的L4执行层是生态位差异

维度OpenClaw字节扣子(Coze)
核心定位个人/企业级执行AgentAgent开发平台 + 生态市场
使用方式直接作为员工使用构建Agent后分发使用
目标用户终端用户、技术极客开发者、企业、ISV
代码控制完全自主(开源)基于开源框架定制
部署模式本地/私有服务器云端SaaS + 可私有化部署
核心功能任务执行、工具调用可视化编排、工作流设计、多Agent协作
模型支持任意模型(Claude、GPT、DeepSeek等)主要集成豆包大模型
商业模式免费软件+API成本平台服务+企业定制

扣子2.0新特性(2026年1月):

  • Agent Skills:将场景最佳实践封装(如营销文案调用AIDA模型)
  • Agent Plan:长期任务执行(如"运营自媒体账号"可持续数月)
  • Agent Office:深度办公场景(Word报告、PPT、Excel处理)
  • 扣子编程:自然语言开发环境(Vibe Coding)

关键差异

OpenClaw是"Agent本身",扣子是"制造Agent的工厂"。

四、综合对比矩阵

Agent类型最佳场景技术门槛隐私控制成本自主性
OpenClaw开源执行框架本地自动化、隐私敏感任务中(需CLI)⭐⭐⭐⭐⭐低($0-50/月)
Manus商业云Agent快速任务外包、非技术用户⭐⭐中-高($19-199/月)
AutoGLM移动端Agent手机App操作、生活场景⭐⭐⭐⭐免费
扣子(Coze)Agent平台企业级应用开发、工作流编排中-高⭐⭐⭐企业定价
AutoGPT实验框架研究、原型验证⭐⭐⭐⭐免费低(不稳定)

五、选型决策指南

选择OpenClaw如果你 :

✅ 重视数据隐私(金融、医疗、法律行业)

✅ 需要深度定制(连接内部系统、自定义工作流)

✅ 希望控制长期成本(避免SaaS订阅费)

✅ 团队有技术能力(能接受CLI操作)

✅ 需要7×24小时持续运行(本地Daemon模式)

✅ 想通过聊天软件指挥AI(WhatsApp、飞书等)

选择Manus如果你:

✅ 不想碰技术(零配置开箱即用)

✅ 需要快速完成研究/分析任务(偶尔使用)

✅ 追求云端的便利性(不占用本地资源)

✅ 能接受Meta处理你的数据

选择AutoGLM如果你:

✅ 主要场景在移动端(手机App操作)

✅ 需要操作微信、淘宝等封闭生态App

✅ 希望不占用手机性能(云端执行)

选择扣子(Coze)如果你:

✅ 需要构建企业级Agent应用(而非直接使用)

✅ 重视可视化开发(低代码/无代码)

✅ 需要多Agent协作生态

六、未来趋势判断

  1. OpenClaw模式将主导企业市场 :受监管行业(金融、医疗)必须本地部署,开源+私有化的OpenClaw路线更符合合规要求
  2. 移动端Agent爆发:AutoGLM代表的"视觉+模拟操作"路线,解决了App不开放API的痛点,将成为手机标配
  3. 平台与执行分离:扣子(Coze)等L5平台负责生态构建,OpenClaw等L4框架负责执行,形成分工
  4. 成本结构重构:OpenClaw的"免费软件+按量API"模式,正在冲击Manus的"订阅+信用点"模式

** 结论**:OpenClaw的核心竞争力在于"极端的透明度和控制力"——代码开源、数据本地、模型自选、成本可控。这使其成为对隐私敏感、需要深度定制的用户和企业的首选,但也要求更高的技术投入。相比之下,其他Agent在便利性、特定场景(移动端)或平台生态上各有优势,形成差异化竞争格局。

LLM与AI Agent的关系

一、本质关系

大模型是"大脑",智能体是"完整的人"
维度大模型 (LLM)AI智能体 (Agent)
核心定位静态知识容器动态行动系统
能力边界理解&生成内容感知→决策→执行闭环
主动性被动响应(需人类驱动)主动规划并行动
工具使用仅生成建议,不直接操作可调用API、控制软件、操作硬件
记忆能力无长期记忆(除非外挂)持久化记忆(用户偏好、历史交互)
目标导向无内在目标有明确目标并自主达成

二、技术架构:从"单一模块"到"系统工程"

大模型:智能体的"认知基座"

大模型(如GPT-4、Claude、DeepSeek)是基于Transformer架构的预训练模型,通过海量数据获得:

  • 语言理解与生成能力
  • 逻辑推理与知识整合
  • 多模态内容处理

关键局限:它只是一个"高智商的顾问"——能告诉你"怎么做",但无法"帮你做" 。

智能体:大模型的"能力放大器"

智能体通过架构设计,将大模型从"文本生成器"转变为"任务执行者":

┌─────────────────────────────────────────┐ │ AI Agent 架构 │ ├─────────────────────────────────────────┤ │ 感知层 → 接收环境信息(用户输入、传感器数据)│ ├─────────────────────────────────────────┤ │ 决策层 → 大模型(大脑)负责理解、推理、规划 │ ├─────────────────────────────────────────┤ │ 执行层 → 工具调用(API、数据库、软件控制) │ ├─────────────────────────────────────────┤ │ 记忆层 → 长期记忆存储(向量数据库、知识图谱)│ ├─────────────────────────────────────────┤ │ 反馈环 → 执行结果观察→动态调整策略 │ └─────────────────────────────────────────┘ 

核心公式Agent = LLM(大脑) + 工具(手脚) + 记忆 + 规划能力

三、技术生态中的位置

┌────────────────────────────────────────┐ │ 应用层 (Applications) │ │ 智能客服 │ 代码助手 │ 自动驾驶 │ RPA │ ├────────────────────────────────────────┤ │ 智能体层 (Agent Layer) │ │ 规划模块 │ 记忆系统 │ 工具调用 │ 反馈环 │ ├────────────────────────────────────────┤ │ 大模型层 (LLM Layer) │ │ GPT-5 │ Claude 4 │ DeepSeek │ Gemini │ ├────────────────────────────────────────┤ │ 基础设施层 (Infrastructure) │ │ 算力集群 │ 向量数据库 │ API网关 │ 云平台 │ └────────────────────────────────────────┘ 

关键协议:MCP(Model Context Protocol)正在成为Agent调用工具的标准"USB-C接口",让大模型与外部工具的连接标准化 。

四、三代技术演进:从"能说"到"能做"

AI应用架构经历了清晰的演进路径 :

代际代表产品特征能力边界
第一代:裸LLMChatGPT、DeepSeek、Claude仅能文本对话,无执行能力告诉你"怎么做"
第二代:WorkflowDify、Coze、扣子等预设流程,大模型按节点执行按剧本"帮你做"
第三代:AgentManus、OpenAI Operator、AutoGPTLLM自主规划、选工具、调策略自己想办法"做出来"

关键差异

  • Workflow:人类设计流程图,大模型是流程中的"文本处理节点"
  • Agent:大模型自己决定流程,动态选择工具,应对未知情况

五、共生关系:相互成就的双螺旋

  1. 大模型赋能智能体的三大路径
赋能维度具体作用示例
认知增强自然语言理解,替代 rigid 规则引擎客服Agent理解用户模糊需求:"我手机坏了"→定位电池问题
决策优化复杂场景推理,动态调整策略金融Agent预测市场波动,优化交易策略
能力扩展作为核心模块整合到系统中智慧城市Agent调用大模型分析路况,协调无人机巡逻
  1. 智能体反哺大模型

价值实现:将大模型的知识转化为实际业务价值

数据飞轮:智能体执行过程中产生的新数据,可用于优化大模型

场景验证:通过实际任务反馈,检验大模型能力的边界

六、典型对比:同一任务的不同处理方式

以"分析上月销售数据并生成报告"为例 :

方式处理流程结果
纯大模型生成文本建议:“你需要整理销量表格、计算环比增长率…”仅提供操作指南,需人工执行
RAG增强检索历史数据→生成分析报告报告内容更准确,但仍需人工整理格式
AI Agent1. 调用Excel读取数据 2. 用Python计算增长率 3. 自动生成图表 4. 撰写结论并发送邮件全程自动,输出可直接使用的报告

AI智能体的发展

一、主要应用场景

  1. 企业级办公与业务流程自动化
场景应用方式价值体现
财务自动化智能体自动从邮件提取发票、校验合规性、发起审批、生成报表全流程无人干预,降低基础人力投入
HR招聘自动筛选简历、安排面试、跟进反馈压缩日常事务时间,提升协作体验
法务合同几分钟内起草合同草案,检索判例进行风险提示专业级辅助,降低法律风险
IT运维自动检测代码Bug并提交修复补丁提升开发效率,减少故障时间
  1. 金融行业(应用成熟度最高)
  • 智能风控:自动化建模、实时风险监测与预警、动态策略调整
  • 智能投顾:分析海量金融数据,提供个性化投资建议
  • 信贷审批:从资料收集到审批建议生成的全流程自动化
  • 反欺诈:实时分析交易行为,识别异常模式

案例:天弘基金已开发基于大模型的金融AI Agent,解决传统大模型训练时缺乏时效性的问题

  1. 零售与电商
环节Agent能力效果
智能客服7×24小时服务、情感计算识别情绪波动、动态调整话术提升转化率,降低人力成本
精准营销语义分析识别购买意图、个性化方案推荐实现"金牌销售"级服务
库存管理预测市场需求、智能补货建议、动态调整库存降低积压和缺货风险
  1. 软件开发与编程辅助

Claude 4在代码生成领域确立绝对优势

  • 构建完整Tetris游戏(含游戏逻辑、界面、控制)
  • 创建2D马里奥游戏(含关卡、怪物、道具系统)
  • 多文件代码重构与优化能力

适用工具:GitHub Copilot(基于Claude)、Cursor、Windsurf等

  1. 内容创作与媒体
  • 文本生成:爆款标题创作、长文撰写、多语言翻译
  • 图像生成:即梦、可灵、豆包等文生图工具,支持水墨画、赛博朋克、吉卜力等风格
  • 视频生成:可灵、Runway等实现文本/图像生成视频
  1. 游戏与娱乐
  • 个性化NPC:英伟达ACE for Games使NPC能实时自然语言对话(已集成至《绝地求生》)
  • 动态难度调整:根据玩家行为实时调整游戏策略和强度
  • 千人千面体验:基于玩家画像提供个性化内容
  1. 政务与公共服务
  • 智能问政:一站式智能服务平台,自动解答政策咨询
  • 智能助民:办事流程引导、材料预审、进度跟踪
  • 多智能体协同:复杂民生问题自动分派至对应部门Agent处理

二、选型建议

需求场景推荐模型/方案理由
代码开发Claude 4 或 Claude 3.7 Sonnet代码质量最高,减少Debug时间
长文档处理Gemini 2.5 Pro 或 GPT-4.1200万/100万token上下文,成本可控
多模态应用Gemini 2.5 Pro原生多模态,视频图像处理能力强
企业安全合规Claude 4安全设计增强,适合敏感场景
预算敏感型项目DeepSeek-V3 或 Gemini 2.5成本极低,适合大规模部署
快速构建AgentGPT-4o + Tool Calling生态完善,工具集成度高

三、未来趋势

  1. 从单Agent到多Agent协同:复杂任务解耦为可并行处理的子模块,实现"1+1>2"的涌现效应
  2. 云端智能体普及:依托云计算弹性资源,加速在政务、金融、教育等行业落地
  3. 成本持续下降:Gemini 2.5已将成本压至极低水平,推动AI应用普惠化
  4. 垂直领域深度适配:医疗、法律、制造等专业领域Agent将更加成熟

2025年,AI Agent已从概念验证走向产业落地,企业级市场正从"助手"向"自动化引擎"升级,个人用户也能通过低代码平台快速创建专属智能体。

OpenClaw(近期爆火的开源AI Agent)

OpenClaw 是2026年初GitHub上增长最快的开源项目之一,3周内Star数从0飙升至18万+(相比之下,React用了8年才达到10万Star)。这是一个真正能"动手干活"的AI智能体,而非仅仅对话的聊天机器人。

核心定位

维度传统AI聊天工具OpenClaw
交互方式问答式对话任务委托 + 主动汇报
执行能力仅生成文本建议真实操作系统和应用
运行位置云端服务本地设备(你的电脑/服务器)
记忆能力会话级(单次对话)持久化长期记忆

技术架构

OpenClaw采用六阶段流水线设计:

用户消息 → Channel Adapter → Gateway Server → Lane Queue → Agent Runner → Agentic Loop → Tool Execution 

四大核心模块

  1. Gateway(网关):统一接入WhatsApp、Telegram、Discord、飞书等10+通讯平台
  2. Agent(大脑):理解意图、制定计划、调用工具(支持Claude、GPT、DeepSeek等模型)
  3. Skills(技能):可扩展的能力插件,如邮件处理、浏览器控制、文件管理等
  4. Memory(记忆):跨会话的持久化记忆,让AI"越用越懂你"

核心能力

1. 真正的系统操作权限

  • 读写本地文件系统
  • 执行Shell命令
  • 控制浏览器自动化(填写表单、抓取数据)
  • 在安全沙箱中运行代码

2. 多平台接入
支持通过日常聊天软件随时指挥:

  • 国外:WhatsApp、Telegram、Discord、Slack、iMessage、Signal
  • 国内:飞书、钉钉(需配置)

3. 持久化记忆

  • 记住你的偏好、工作习惯
  • 三个月前的任务中断后可以继续
  • 跨Agent共享记忆

4. 定时任务与主动执行

  • 设置定时任务(如"每周一整理上周销售数据")
  • 主动监控和汇报(如"监控网站状态,宕机时通知我")

典型应用场景

场景具体示例
开发辅助自动检测代码Bug并修复、部署网站、抓取数据
办公自动化整理桌面文件、筛选回复邮件、生成周报并发送
信息搜集监控竞品动态、抓取小红书/推特内容、整理成报告
生活助手自动值机、预约医生、处理报销、管理日程
内容创作自动发布社交媒体、管理内容日历

与类似工具对比

工具类型核心差异
OpenClawAI Agent平台本地运行、多平台接入、能实际操作电脑
ChatGPT对话AI仅提供建议,不能执行操作
CursorAI编程助手仅在IDE内工作,无法跨系统操作
智谱AutoGLM移动端Agent专注安卓设备视觉识别和触控模拟

部署方式

本地部署(隐私优先):

  • 运行在Mac mini、Windows电脑或Linux服务器上
  • 数据完全本地存储,不上传云端
  • 适合对隐私要求高的用户

云端部署(7×24小时在线):

  • 部署在VPS或云服务器(如Zeabur、火山引擎)
  • 不占用本地电脑资源,随时可用
  • 通过Tailscale等私有网络保障安全

安全考量

由于OpenClaw拥有操作系统级权限,也带来安全风险:

  • 敏感信息外泄:可能误发本地数据
  • 高危操作:可能执行破坏性命令(如rm -rf
  • 远程控制:被恶意利用成为攻击入口

应对方案

  • 使用沙箱环境隔离执行
  • 设置指令过滤和白名单
  • 启用人工审批机制
  • 火山引擎等云厂商已推出专门的安全防护方案

创始人与社区

  • 创始人:Peter Steinberger(奥地利工程师,PSPDFKit创始人)
  • 吉祥物:龙虾(🦞)
  • 更名历程:Clawdbot → Moltbot → OpenClaw(因商标问题多次改名)
  • 最新动态:2026年2月14日,创始人加入OpenAI,OpenClaw转向独立基金会运营

Seedance

Seedance 是字节跳动旗下 Seed团队 研发的 AI视频生成大模型,定位为"电影级全流程生成引擎" 。

核心定位

  • 技术路线:基于扩散模型(Diffusion Model)的多模态视频生成
  • 目标:实现"从0到1"的电影级视频生成,让"人人皆导演"
  • 平台载体:集成于字节跳动的 即梦(Dreamina) AI创作平台

技术迭代历程

版本发布时间核心能力
Seedance 1.02025年初基础文生视频,720p分辨率,快速草稿
Seedance 1.0 Pro2025年中1080p分辨率,增加图生视频,10秒时长
Seedance 1.52025年末1080p高清+同步音频,电影级质感
Seedance 2.02026年2月四模态输入、15秒长视频、原生音画同步、多镜头叙事

Seedance 2.0 的核心突破(2026年2月发布)

Seedance 2.0 被视为 “2026开年第一技术王炸”,标志着AI视频从"玩具级演示"迈入"工业生产力阶段" 。

七大核心能力

能力说明技术细节
🎬** 电影级画质**原生1080p/2K,专业景深与动态模糊Pro版支持2K分辨率
🔊** 音画同步生成**同步输出音效、对白、配乐,口型精准匹配双分支扩散变换器架构,支持中英粤多语言
🎞️** 多镜头叙事**自动切换广角/中景/特写,保持角色一致性自动分镜与运镜规划
📎** 四模态输入**支持12个参考文件(9图+3视频+3音频)通过@素材名精准控制
👤** 角色一致性**跨镜头保持面部、服装、光影统一ID-Lora技术,解决"变脸"问题
🌊** 物理真实感**真实重力、惯性、流体效果严格遵循物理定律(如花样滑冰动作)
** 极速生成**2分钟产出5-10秒视频生成速度提升30%

与Sora 2的对比

  • 生成质量:被《黑神话:悟空》制作人冯骥称为"当前地表最强的视频生成模型,没有之一"
  • 可用率:超过90%,远高于行业平均水平
  • 成本重构:5人团队3天的工作 → 单人30分钟完成,60秒视频成本从近万元降至算力支出

Seedance vs 即梦 vs 可灵:三者关系

这是最容易混淆的部分,三者是**“模型-平台-竞品”**的三角关系:

关系图解
┌─────────────────────────────────────────┐ │ 字节跳动生态 │ ├─────────────────────────────────────────┤ │ Seedance(模型层) │ │ └── 即梦/Dreamina(平台层) │ │ └── 面向C端用户 │ ├─────────────────────────────────────────┤ │ 快手可灵(竞品模型+平台) │ │ └── 快手生态 │ └─────────────────────────────────────────┘ 
详细对比
维度Seedance即梦(Dreamina)可灵(Kling)
本质AI视频生成大模型(技术底座)AI创作平台(应用载体)AI视频生成大模型+平台(快手出品)
开发者字节跳动Seed团队字节跳动快手
关系即梦内置Seedance模型即梦调用Seedance等模型与Seedance竞争关系
核心优势多镜头叙事、音画同步、角色一致性一站式创作工具(视频+图片+音乐)电影质感、精细表情、皮肤细节、动作控制
目标用户通过即梦平台触达C端普通创作者、设计师专业内容生产者
使用方式在即梦平台选择"Seedance 2.0"模型即梦平台提供多种模型可选可灵独立平台/快手生态
定价即梦平台内按积分消耗免费额度+订阅制免费额度+会员制
一句话区分
  • Seedance = “发动机”(核心技术)
  • 即梦 = “整车”(用户接触的平台,可换不同发动机)
  • 可灵 = “另一品牌的发动机+整车”(快手竞品)

关键洞察

“Seedance更侧重于帮用户表达一个故事,可灵则更侧重专业级别的内容生产

Read more

Claude Code Viewer: 打造 Web 端 Claude Code 会话管理利器

Claude Code Viewer: 打造 Web 端 Claude Code 会话管理利器 当 Claude Code 成为日常开发标配,如何更高效地管理会话历史、分析对话流程就成了开发者的新需求。Claude Code Viewer 应运而生——一个功能完备的 Web 端 Claude Code 客户端。 背景介绍 Claude Code 是 Anthropic 推出的 AI 编程助手,但其原生的会话管理能力相对基础。大多数开发者面临以下痛点: * 会话历史难以追溯和检索 * 无法在移动设备上方便地查看会话 * 多人协作时难以共享会话内容 * 缺乏对会话流程的全局视角 Claude Code Viewer 正是为解决这些问题而生的开源项目。它采用 Web 架构设计,专注于会话日志的完整分析,通过严格的数据校验和渐进式展示 UI,让每一个对话细节都清晰可见。

【芯片解读】TI AFE5816:16通道超声波模拟前端 (AFE) 深度详解

【芯片解读】TI AFE5816:16通道超声波模拟前端 (AFE) 深度详解

【芯片解读】TI AFE5816:16通道超声波模拟前端 (AFE) 深度详解 简介 在医疗超声成像、无若检测(NDT)以及声纳应用中,模拟前端(AFE)的性能直接决定了成像的质量。Texas Instruments (TI) 的 AFE5816 是一款高度集成的 16 通道模拟前端解决方案,专为需要高性能、低功耗和小尺寸的便携式及高端超声波系统设计。 国产类似产品为海思的AC9810-32,该产品与TI的AFE5832功能相似,为32通道AFE,海思后续还有64通道的产品推出。 1. 核心特性概览 (Key Features) AFE5816 是一个多芯片模块(MCM),集成了两个晶圆:VCA(压控放大器)和 ADC_CONV(模数转换)。其主要特性如下: * 高集成度:单芯片集成 16 个通道,每个通道包含衰减器、LNA、LPF、

【粉丝福利社】扣子(Coze) Skills+OpenClaw 实战:零基础玩转AI智能体

【粉丝福利社】扣子(Coze) Skills+OpenClaw 实战:零基础玩转AI智能体

💎【行业认证·权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:ZEEKLOG博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者 🏆【荣誉殿堂】 🎖 连续三年蝉联"华为云十佳博主"(2022-2024) 🎖 双冠加冕ZEEKLOG"年度博客之星TOP2"(2022&2023) 🎖 十余个技术社区年度杰出贡献奖得主 📚【知识宝库】 覆盖全栈技术矩阵: ◾ 编程语言:.NET/Java/Python/Go/Node… ◾ 移动生态:HarmonyOS/iOS/Android/小程序 ◾ 前沿领域:

前端拖拽交互实现:别再只会用原生拖拽了

前端拖拽交互实现:别再只会用原生拖拽了

前端拖拽交互实现:别再只会用原生拖拽了 毒舌时刻 这代码写得跟网红滤镜似的——仅供参考。 各位前端同行,咱们今天聊聊前端拖拽交互。别告诉我你还在用原生的HTML5拖拽API,那感觉就像在用诺基亚手机——能打电话,但体验太差。 为什么你需要拖拽交互 最近看到一个项目,拖拽功能全靠原生API实现,卡顿、不流畅,用户体验极差,我差点当场去世。我就想问:你是在做拖拽还是在做卡顿生成器? 反面教材 // 反面教材:原生拖拽API function handleDragStart(e) { e.dataTransfer.setData('text/plain', e.target.id); } function handleDragOver(e) { e.preventDefault(); } function handleDrop(e) { e.preventDefault(); const id = e.dataTransfer.