拒绝 AI 盲目梭哈：拆解 Garry Tan 的 gstack 架构逻辑

优质文章学习记录

07 Apr 2026 — 5 min read

拒绝 AI 盲目梭哈：拆解 Garry Tan 的 gstack 架构逻辑

YC 的 Garry Tan 把他那套压箱底的 AI 开发流开源了，名字很直白，叫 gstack。看了一圈源码，这东西的本质不是什么自动化写代码的脚本，而是给 Claude Code 这种暴力工具装上了一个基于现代软件工程流程的约束框架。它把 Claude 从一个随时可能失控的单兵，强行捏合成了一个由 CEO、工程经理和 QA 组成的虚拟公司。

如果你觉得现在的 AI 编程只是在玩简单的 Prompt 对话，那 gstack 的思路可能会让你清醒一点：它不是在教 AI 怎么写代码，而是在教 AI 怎么像个正经的工程团队一样协同。我看重的是它对冲动编码的抑制，这才是架构师该有的思维。

![repo_screenshot](repo_screenshot.png null)

https://github.com/garrytan/gstack

认知摩擦力：为什么指挥官模式才是救命稻草

gstack 引入的 Conductor Agent 并不是为了增加链路复杂性，它是为了制造摩擦力。在真实的工程实践中，最恶心的往往不是代码写不出来，而是逻辑起点就错了。普通开发者用 Claude 可能直接就喊它改功能，而 gstack 要求先进行战略对齐。这种做法很像老练的建筑工头：在没看清管道走向前，绝不轻易切断任何一根水管。

这种架构强制 AI 在思维空间里先进行一次低成本的模拟。如果 Conductor 认为方案逻辑不通，具体的执行 Agent 就不会被激活。这有效防止了 AI 像个没头苍蝇一样在你的代码仓库里乱撞，最后搞出一堆无法编译、逻辑断层的屎山。

角色扮演背后的降噪逻辑：分封制的博弈艺术

gstack 定义的 CEO、工程经理（EM）和 QA 测试员，听起来像是某种过家家的角色扮演，但在底层逻辑里，这叫职责分离。把决策权、管理权和质量控制权强行分开，即便它们背后跑的都是同一个 Claude 模型，也会因为 Context 的差异产生奇妙的博弈。

CEO 关注业务交付，EM 关注代码实现的可维护性，QA 则是那个拿着放大镜找茬的杠精。这种设计比那种全能型提示词要高级得多。它模拟的是一种工程博弈：当 QA 说这段代码可能有内存泄漏时，EM 必须得回应。这种机制把单点失效风险降到了最低，避免了 AI 在长依赖任务中自说自话。

现实约束：这是一场昂贵的脑力游戏

别高兴太早，gstack 这种架构对 Token 的消耗是毁灭性的。你为了改一个简单的 CSS 样式，可能背后需要三个 Agent 进行五轮对话，这种大炮轰蚊子在小项目上极其臃肿。而且它对上下文长度的要求近乎苛刻，如果你的工程依赖关系复杂到一定程度，Claude 的上下文窗口依然会像深夜三点的生产环境服务器一样报警。

我个人非常反感那些吹捧 AI 能够完全替代程序员的论调。gstack 的出现反倒是证明了：人类的工程方法论——那些繁琐的评审、严苛的 QA 流程，依然是目前唯一能约束复杂系统不崩溃的良药。gstack 只是把这套药方翻译成了 AI 能听懂的语言，但它无法解决模型本身对长逻辑理解的上限。

抽象层次的跃迁：从修水管到治理城市

gstack 的真正价值在于它拉高了 AI 参与开发的维度。以前 AI 是你的扳手，现在它试图成为你的施工队。虽然目前的实现还略显生硬，有些地方甚至透着一种为了架构而架构的笨拙感，但它指明了一个方向：AI 编程的终局不是生成更多的代码，而是更有效地治理已有的复杂性。

如果你还在手动复制粘贴代码块到网页窗口，gstack 会让你觉得自己像是在原始森林里钻木取火。它的 CLI 体验非常硬核，完全是为了那些住在终端里的极客准备的。这种不讨好小白的态度，反倒让我觉得这个项目更有工业落地潜力。

实现Python将csv数据导入到Neo4j

目录一、获取数据集 1.1 获取数据集 1.2 以“记事本”方式打开文件 1.3 另存为“UTF-8”格式文件 1.4 选择“是” 二、打开Neo4j并运行 2.1 创建新的Neo4j数据库 2.2 分别设置数据库名和密码编辑 2.3 启动Neo4j数据库 2.4 打开Neo4j数据库 2.5 运行查看该数据库是否为空三、打开Python创建项目 3.1 创建一个包，存项目 3.2 创建一个项目 3.3 检查自己的依赖是否完全

AI安全：视觉提示词注入攻击代码/实战教学｜针对Hugging Face开源大模型Stable Diffusion Model

提到提示词注入（Prompt Injection），大家的第一反应往往是精心构造的文本越狱指令。而在图生图任务中，输入图像在本质上扮演了视觉提示词的角色，与文本指令共同指导生成模型。基于这一视角，本文展示针对视觉提示词的注入攻击：通过PGD对抗攻击算法对输入图像进行像素级微调，使其生成的违规图像能够绕过开源大模型的NSFW安全检测机制。临近毕业，感觉市场对提示词注入比较感兴趣，因本人读博期间一直研究对抗攻击算法，所以决定尝试用对抗攻击的思路完成提示词注入攻击，误导开源模型生成违规图像。完整代码链接：https://github.com/YujiangLi0v0/Injection_Attack_Inpainting.git 目录 * 一、 NSFW防线：开源模型的安全过滤机制 * 二、攻击场景定义 (Threat Model) * 三、环境搭建 * 四、核心攻击流程详解 * 4.1. 固定随机因子 * 4.2 数据预处理 * 4.3. 攻击部分 * 4.3.1 重写扩散模型推理过程

x86-64 Memory Architecture and mov Instructions: Deep Dive into Addressing Mechanisms, Stack Operati

本文为纯手打原创硬核干货，适合学习计算机组成、汇编、CSAPP 的同学，欢迎真实阅读、交流。 Based on the x86-64 architecture, this article starts with the matrix-based physical implementation of main memory, systematically breaks down the memory addressing mechanism, the family of data transfer instructions, and the logic of stack operations. It will help you fully grasp the underlying

一文讲清楚RAG 四大模式：Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG

随着技术迭代，RAG 已从最初的简单架构发展出多种进阶形态。本文将系统解析 RAG 的四大主流模式 ——Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG，从工作原理、技术特点到适用场景进行全方位对比，为技术选型提供参考。一、RAG 基础：检索增强生成的核心逻辑在深入模式解析前，需先明确 RAG 的核心逻辑。简单来说，RAG 由检索（Retrieval）与生成（Generation）两大模块构成：检索模块：从预设知识库中精准定位与用户问题相关的信息片段（如文档、段落、句子）；生成模块：基于检索到的信息，结合大语言模型生成符合上下文、逻辑连贯的答案。这种 “先检索再生成” 的模式，既保留了 LLM 的语言理解与生成能力，又通过外部知识的引入弥补了模型训练数据过时、事实准确性不足的缺陷。

拒绝 AI 盲目梭哈：拆解 Garry Tan 的 gstack 架构逻辑

认知摩擦力：为什么指挥官模式才是救命稻草

角色扮演背后的降噪逻辑：分封制的博弈艺术

现实约束：这是一场昂贵的脑力游戏

抽象层次的跃迁：从修水管到治理城市

Read more

实现Python将csv数据导入到Neo4j

AI安全：视觉提示词注入攻击代码/实战教学｜ 针对Hugging Face开源大模型Stable Diffusion Model

x86-64 Memory Architecture and mov Instructions: Deep Dive into Addressing Mechanisms, Stack Operati

一文讲清楚RAG 四大模式：Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG

AI安全：视觉提示词注入攻击代码/实战教学｜针对Hugging Face开源大模型Stable Diffusion Model