【AIGC】《Generative Agents：Interactive Simulacra of Human Behavior》

优质文章学习记录

07 Apr 2026 — 7 min read

让 AI 村民组成虚拟村庄会发生什么事？

文章目录

Generative Agents
资讯
参考

Generative Agents

Park J S, O’Brien J, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[C]//Proceedings of the 36th annual acm symposium on user interface software and technology. 2023: 1-22.

这篇论文由斯坦福大学和 Google 的研究人员（如 Joon Sung Park, Percy Liang 等）共同发表，也就是大名鼎鼎的 “AI 小镇（Smallville）” 论文。鉴于你之前关注“能使用工具的 AI”，这篇文章正是“自主智能体（Autonomous Agents）”领域的开山之作。

核心贡献：提出了一个名为 “生成式智能体架构（Generative Agent Architecture）” 的系统，包含三个关键组件：

记忆流 (Memory Stream)：一个长期内存数据库，用自然语言记录智能体的所有经历（观察）。通过相关性、近时性、重要性三个维度进行检索，决定智能体当前该想起什么。
反思 (Reflection)：智能体会定期停下来，对记忆流中的碎片化信息进行归纳总结，提取出高层级的观点（例如：某人很友好，或者我下午需要去买菜），这让智能体能够形成更深刻的判断。
规划 (Planning)：智能体会制定长、中、短期计划，并根据环境变化（观察到新事物）随时调整计划（Re-planning），保证行为的逻辑连贯性。

点击对应的 NPC，可以看到更多细节

每个角色都有人设

最经典的案例情人节派对，至今还被反复拿出来讨论。
他们只给其中一个叫Isabella的AI下了一个种子指令——“你想在情人节办个派对”。
剩下的事情，人类完全没有插手，然后整个小镇就自发运转起来了。
Isabella开始四处发邀请函，接到邀请的AI们会根据自己的性格决定去不去，甚至有人在派对前一天就开始紧张地讨论该穿什么、要不要带点礼物。
甚至有人帮忙装饰咖啡馆，有人提前规划路线，最后5个AI准时到场，派对办得热火朝天。
整个过程虽然丝滑，却没有一条硬编码规则，全是这群电子小人自己“想”出来的。

Daily requirement 超长

NPC 觉醒，喜欢上了玩家操控的女角色，会发生什么事情呢？

行为说明应该是 ChatGPT 生成的

行为说明转成行为应该基于 program 规则

感知-思考-行动循环：

感知：Agent 观察周围环境并存入记忆流。
检索：根据当前场景检索最相关的记忆。
行动：通过 Prompting 让 LLM 生成下一步动作（对话、移动、操作物体）。

固定的太枯燥了

可以让 Agent 根据外界的信息改变自己的行为

重要性打分，

模型内部的结构，有 plan，有 observation，还有 reflection

因为 no evidence

发现了相互暗恋的情况（Maria 和 Klaus），不排除是上帝把 reflection 塞进来了，因为没有看到 evidence

John 是 Eddy 的爸爸，John 看见 Eddy 后，改变了自己的 plan，开始与 Eddy 去对话

伊莎贝拉计划举办一场情人节派对。她传播了这个信息，在模拟结束时，12 个角色已经知道了这件事。其中 7 个人「犹豫不决」——3 个人已有其他计划，4 个人没有表露想法，这和人类的相处一样。

demo 比较慢，李老师没有看到最后，不知道 Maria 和 Klaus 的对话内容以及情人节活动现场发生的事情

自己注释了一个 happy ending，哈哈哈

实验最令人惊叹的是观察到了涌现出的社会行为 (Emergent Social Behaviors)：

信息传播：一个 Agent 决定举办情人节派对，消息通过社交互动在小镇里传开，大家纷纷调整计划参加。
关系演变：智能体之间会建立新的友谊，并根据过去的互动改变对彼此的态度。
协作：多个智能体协调时间，共同出现在同一地点。

论文证明了将 LLM 与架构化的记忆机制结合，可以创造出极具真实感的“数字人类”。

证明了 Agent 的可信度不仅取决于模型本身，更取决于其对过去经历的组织和反思能力。

资讯

「斯坦福AI小镇」创业即获投1亿美元！李飞飞卡帕西都投了（2026-02-14）
- 当初那个“智能体早期真神”，让25个智能体自己聊天、传八卦、谈恋爱的AI小镇Smallville团队也官宣创业了。
- 公司名叫Simile，直接拿下了Index Ventures领投的1亿美元融资，连卡帕西、李飞飞也跟了。
爆火论文打造《西部世界》雏形：25个AI智能体，在虚拟小镇自由成长（2023-04-11）
- Generative Agents 的架构中心是记忆流—— 一个全面记录智能体经验的数据库。智能体会从记忆流中检索相关记录，以规划智能体的动作行为并对环境做出适当反应，并且每次行为都会被记录以递归合成更高级别的行为指导。Generative Agents 架构中所有的内容都被记录下来并以自然语言描述的形式来进行推理，从而使智能体能够利用大型语言模型的推理功能。
- 只有当智能体对最近事件的重要性分数总和超过某个阈值，智能体才会开始反思。

参考

https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php
https://www.bilibili.com/video/BV18fXbY6Eis/?spm_id_from=333.1387.homepage.video_card.click&vd_source=8e91f8e604278558ec015e749d1a3719
https://www.youtube.com/watch?v=G44Lkj7XDsA
Demo：https://reverie.herokuapp.com/arXiv_Demo/

【VR音游】音符轨道系统开发实录与原理解析（OpenXR手势交互）

VR音游音符轨道系统开发实录与原理解析在 VR 音游的开发过程中，音符轨道系统是最核心的交互与可视化部分。本文结合一次完整的开发实录，分享从核心原理与设计到VR内容构建的完整过程，帮助读者快速理解音符轨道系统的实现思路。文章目录 * VR音游音符轨道系统开发实录与原理解析 * 一、实录结果 * 二、VR内容开发步骤 * 1. 准备音符与交互逻辑 * 2. 创建谱面 * 3. 绘制音轨 * 4. 预制件与音频替换 * 三、原理解析（音符轨道系统） * 1. 音符轨道（Note Track） * 2. 轨迹调节与偏移控制 * 3. 音符触摸激活 * 4. 谱面编辑工具（Editor 功能） * 四、总结与展望 * 1. 成果回顾：从零到一的核心突破 * 2. 技术总结：核心设计理念 * 3. 开发难点与问题反思 * 4. 优化策略与改进方向 * 5.

腾讯QQ官方炸场！OpenClaw一键建5个机器人，个人号直接上手｜实战教程

文章目录 * 前言 * 一、OpenClaw是个啥？你的"数字长工" * 二、为什么说这次QQ"炸场"了？ * 三、实操环节：从0到1，手把手养出你的AI小弟 * 3.1 在QQ开放平台"造人" * 3.2 给机器人找个"肉身"（部署OpenClaw） * 方案A：云服务器一键部署（推荐新手） * 方案B：宝塔面板可视化安装（适合有服务器的站长） * 方案C：本地Docker部署（适合极客） * 3.3 关键的"认亲"三步走 * 3.4 加好友，

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel（RTX 3090 sm_86）

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel（RTX 3090 sm_86）系列：Windows AI 环境 “没有轮子（.whl）就自己造” 从零到一 · 第 N 期难度：⭐⭐⭐⭐ 适用场景：SD WebUI + xformers 0.0.31.post1 + flash-attn 版本冲突修复适用场景：其他版本的 Flash-Attention 编译实战请见文末引用链接一、背景与问题描述彻底解决 Stable Diffusion WebUI 启动报错：

从部署到运行：Qwen3Guard-Gen-WEB全流程图文指南

从部署到运行：Qwen3Guard-Gen-WEB全流程图文指南在AI生成内容爆发式增长的当下，如何确保输出内容的安全合规，已成为开发者和企业无法回避的核心问题。阿里云推出的 Qwen3Guard-Gen-WEB 镜像，正是为解决这一痛点而生——它集成了基于Qwen3架构的安全审核模型，支持多语言、三级风险分类，并通过网页界面实现零门槛使用。本文将带你从零开始，完整走通 Qwen3Guard-Gen-WEB 的部署、启动与实际推理全过程，配有详细步骤截图和操作说明，即使是技术新手也能轻松上手。 1. 准备工作：了解镜像核心能力在开始之前，先明确这个镜像能做什么： * 安全内容识别：自动判断输入文本是否包含违法、违规或敏感信息 * 三级风险分级：输出“安全”、“有争议”、“不安全”三种结果，便于差异化处理 * 多语言支持：覆盖119种语言和方言，适合全球化应用场景 * 本地化部署：数据不出私网，保障隐私与合规性 * Web交互界面：无需编写代码，直接在浏览器中完成测试该镜像基于 Qwen3Guard-Gen 系列模型构建，专用于内容安全场景，不追求生成能力