Agentic AI 学习笔记:智能体原理与工作流设计
Agentic AI(智能体 AI)的概念,强调其自主性、目标驱动及环境交互能力。内容涵盖智能体工作流与传统零样本工作流的区别,低自主性与高自主性的对比,以及性能优势如并行加速和模块化设计。文章详细列举了发票处理、邮件回复等应用场景,并阐述了任务分解的方法论,包括观察人类行为、拆解步骤和迭代优化。此外,还讨论了评估智能体的重要性及方法(端到端与组件级),以及反思、工具使用、规划、多智能体协作等核心设计模式。旨在帮助读者理解如何构建高效的…
Agentic AI(智能体 AI)的概念,强调其自主性、目标驱动及环境交互能力。内容涵盖智能体工作流与传统零样本工作流的区别,低自主性与高自主性的对比,以及性能优势如并行加速和模块化设计。文章详细列举了发票处理、邮件回复等应用场景,并阐述了任务分解的方法论,包括观察人类行为、拆解步骤和迭代优化。此外,还讨论了评估智能体的重要性及方法(端到端与组件级),以及反思、工具使用、规划、多智能体协作等核心设计模式。旨在帮助读者理解如何构建高效的…
介绍如何在 OpenClaw 中接入 Telegram 机器人,解决飞书请求限制及非认证企业账号无法组建群聊的问题。内容包括 OpenClaw 端配置 API Token 的步骤,以及在 Telegram 端通过 BotFather 创建机器人的具体操作指引。

针对 AI 大模型训练和微调中网页数据集获取难、成本高及反爬复杂的问题, Web Unlocker API、Web Scraper 及 SERP API 等工具。通过智能代理、浏览器指纹伪装及验证码绕过技术,实现高防护网站数据的自动化抓取。结合 Python 代码示例,展示了如何配置目标网站并提取结构化数据,为中小企业构建 AI 知识库提供高效、合规的解决方案。
介绍 Lychee-Rerank-MM 的本地化部署教程,该工具基于 Qwen2.5-VL 视觉语言模型实现图文重排序。支持纯本地运行,无需联网,适配 NVIDIA RTX 4090 显卡。通过 Streamlit 提供 Web 界面,用户输入文本描述即可对上传图片进行相关性打分排序。文章涵盖环境准备、一键部署步骤、实操演示及关键技术解析(BF16 推理、显存调度)。旨在为开发者提供一个安静、可控、响应快的本地图文筛选助手,提升素材筛选…
介绍前端调用 AI 接口的完整流程。通过配置 Vite 代理解决跨域,封装 HTTP 请求工具与 AI 功能函数(润色、扩写),并在 Vue 组件中实现流式响应处理。包含配置文件、请求工具、服务层封装及页面逻辑示例,帮助开发者快速集成 AI 文本处理能力。
基于 OpenAI Whisper Large v3 模型构建多语言语音识别 Web 服务的完整流程。内容涵盖环境配置、依赖安装、Gradio 界面搭建及核心代码实现。通过 GPU 加速推理,支持音频上传与实时录音,实现 99 种语言自动检测与转录翻译功能。同时提供了性能优化方案及常见问题排查指南,帮助开发者快速部署本地语音识别系统。
探讨了 AI 绘画中关键词(Prompt)工程的技术实现与优化。分析了主流模型(Stable Diffusion、DALL-E、MidJourney)的特性差异,阐述了主体 + 细节 + 风格的三段式语法结构及权重控制技巧。提供了基于 Python 调用 Stable Diffusion API 的代码示例,涵盖参数配置与图像生成流程。此外,还讨论了 Token 长度、抽象程度对性能的影响,以及生产环境中敏感内容过滤、风格一致性和版权风…
档详细阐述了 OpenClaw Gateway 的命令行接口(CLI)与 WebSocket API 的使用方法。内容包括 Gateway 的生命周期管理、健康诊断、配置变更、聊天消息收发、Agent 指令执行及会话控制。文档提供了完整的 CLI 命令参数说明、WebSocket 连接认证流程、聊天斜线命令列表以及 Node.js 和 Python 的 API 调用示例。此外还涵盖了系统事件类型、权限角色体系及设备配对机制,旨在帮助开发…

基于 Spring Boot 和 AI 辅助开发的电商系统商品管理模块。涵盖需求分析、核心模块设计(商品、分类、库存、搜索)、技术选型(MySQL, Redis, ES)及数据库结构。重点展示了如何利用 AI 工具提升 CRUD 接口与业务逻辑的开发效率,实现了商品全生命周期管理与智能库存预警。

介绍开源执行型 AI 智能体 OpenClaw,涵盖其核心功能(系统控制、办公自动化、运维辅助等)、Ubuntu 环境下的 Node.js 部署流程、技能与插件扩展方法,以及基于四层架构的 AI Native 设计原则借鉴。

如何使用轻量级 Agent 框架 OpenClaw,结合大语言模型自动生成规范的软件测试用例并直接写入 Excel 文件。文章涵盖了环境配置、核心代码实现(包括用例生成工具与 Excel 写入工具)、Agent 初始化及执行逻辑,并提供了进阶扩展思路如解析需求文档和对接 TestLink。该方法适合有编程能力的测试工程师,相比可视化平台更灵活且易于嵌入 CI/CD 流程。
详细介绍 SAM 3 开源大模型的三种部署路径:Docker 容器化部署、Jupyter Notebook 交互调试以及 Web 可视化界面操作。内容涵盖系统环境准备、Docker 安装配置、镜像拉取运行、图像与视频分割功能的使用指南,以及常见问题排查与性能优化建议。旨在帮助开发者和产品经理快速在本地环境中验证并应用视觉理解能力。

一款开源 AI 短剧工具的使用流程。该工具通过多 Agent 协作,将小说转化为大纲、剧本、分镜及最终视频。用户需配置文本、图像和视频三类 AI 模型,上传小说内容后,系统自动识别章节并生成故事线。经导演 Agent 审核后,由资产生成模块提取角色场景提示词并批量生成图片。最后通过剧本、分镜及视频生成步骤完成素材制作,支持导出至专业剪辑软件合成。工具强调流水线节点的可控性与可修改性,提升制作效率。

OpenClaw 接入飞书机器人的完整流程。首先检查版本是否内置插件,旧版需手动安装。接着在飞书开发者后台创建企业自建应用,获取 AppID 和 AppSecret。配置权限管理,导入指定 JSON 申请开通权限。添加机器人能力并配置菜单状态。设置事件与回调,选择长连接接收消息,订阅接收消息事件。发布应用版本。随后通过命令行工具 openclaw-channels-add 添加飞书渠道,选择本地插件路径,输入密钥和 ID,选择 WebS…

分享了 GitHub Copilot 在生成样板代码、单元测试及调试中的实际应用,通过对比数据展示效率提升,并提供了集成工作流、高级用法及避坑指南。文章强调将 AI 作为辅助工具,结合人工审查以保持代码质量,旨在帮助开发者告别无效加班,专注于架构设计与创新思考。

NVIDIA GTC 2026 开幕,发布 NemoClaw Agent 平台并聚焦 Physical AI。微软开源 AgentRx 解决 Agent 调试难题。Anthropic 披露 Claude 完成 70%-90% 开发代码。大晓机器人开源端侧具身世界模型 Kairos 3.0-4B。北京通用 AI 研究院发布 OmniXtreme 实现高动态运动控制。AI 进入自我强化工程化阶段,工具链与载体同步走向自主可靠。
Spring AI Alibaba 框架通过 MemorySaver 和 MemoryStore 组件分别实现短期记忆与长期记忆。短期记忆基于内存存储会话状态,支持线程隔离;长期记忆支持结构化数据存储及跨会话共享。文章结合源码解析了检查点保存恢复机制及命名空间管理方式,并提供了 Agent 调用示例。

针对低剂量螺旋 CT 肺结节筛查中人工阅片效率低及微小结节易漏诊的问题,提出融合 YOLOv8 目标检测与 Lung-CLIP 多模态大模型的轻量化辅助诊断方案。基于公开数据集 LUNA16 进行全流程复现,通过引入膨胀卷积增强小目标特征,利用 Lung-CLIP 文本编码器计算语义相似度过滤假阳性。实验显示改进后敏感度达 92.5%,假阳性率显著降低至 0.9/扫描,推理速度保持实时水平。方案支持边缘计算部署,具备一定可解释性,为临床…
Nanbeige4.1-3B 是一款轻量级开源模型,分享了其在教育问答、代码辅助和智能写作三个场景的落地实践。通过 vLLM 部署服务并结合 Chainlit 构建前端界面,测试了模型的数学推理、常识问答及逻辑能力。在教育场景中,模型能准确解答学科问题并支持多轮辅导;在编程场景中,可解释代码、生成优化方案及修复 Bug;在写作场景中,能撰写商务邮件及技术文档。文章总结了模型优势(响应快、资源占用少)、适用场景及局限性,为资源有限环境下的…

MCPHost 是一款命令行工具,支持大型语言模型通过模型上下文协议(MCP)与外部工具交互。演示了 MCPHost 的安装配置、命令使用及与不同 AI 模型的对接过程。通过构建 Time MCP 服务,验证了 DeepSeek-v3 等模型对函数调用的支持能力,解决了部分模型无法正确响应的问题。文章提供了详细的配置文件示例和调试经验,帮助开发者快速实现大模型与本地工具的集成。