从“手机上写代码“的疯狂想法，到一套完整的AI编程平台架构——WebCode深度技术剖析

优质文章学习记录

11 Apr 2026 — 16 min read

说实话，当我第一次在地铁上用手机修复了一个线上Bug的时候，我整个人都是懵的。不是因为Bug有多难，而是因为——我TM居然真的在手机上写代码了？

一、那个让我失眠的需求

故事要从去年说起。

当时我们团队接到一个"看起来很简单"的需求：让开发者能够随时随地使用AI编程助手。产品经理信誓旦旦地说："不就是做个Web版的Claude Code吗？套个壳就行了。"

我当时就笑了。

你知道Claude Code CLI是怎么工作的吗？它是一个本地进程，需要读写文件系统，需要执行Shell命令，需要维护会话状态，需要解析流式JSON输出...把这玩意儿搬到Web上？还要支持手机？

那几天我躺在床上翻来覆去睡不着，脑子里全是问题：

浏览器怎么调用本地CLI工具？
流式输出怎么实时推送到前端？
多个用户同时使用，工作区怎么隔离？
手机上那个破键盘，怎么让人愉快地写代码？
Claude Code和Codex的输出格式完全不一样，怎么统一处理？

后来我想明白了一件事：这不是一个"套壳"的活儿，这是要从零设计一套分布式AI编程平台的架构。

二、架构设计：我踩过的那些坑

2.1 第一个大坑：CLI工具的"性格"都不一样

你以为所有AI CLI工具的输出格式都一样？太天真了。

Claude Code输出的是stream-json格式，长这样：

{"type":"assistant","message":{"role":"assistant","content":[{"type":"text","text":"让我来帮你..."}]}}

而Codex输出的是JSONL格式，长这样：

{"type":"item.updated","item":{"type":"agent_message","text":"正在分析代码..."}}

更要命的是，它们的会话恢复机制也不一样。Claude Code用--resume session_id，Codex用resume session_id（注意，没有双横线）。

一开始我想的是：写一堆if-else判断不就完了？

// 千万别这么写，我已经替你踩过坑了 if (toolId == "claude-code") {     // 处理Claude Code的逻辑 } else if (toolId == "codex") {     // 处理Codex的逻辑 } else if (toolId == "copilot") {     // 又来一个... }

这种代码写出来，三个月后你自己都不想维护。

最后我选择了适配器模式。每个CLI工具都有自己的适配器，实现统一的接口：

public interface ICliToolAdapter {     // 这个工具支持哪些ID     string[] SupportedToolIds { get; }          // 是否支持流式解析     bool SupportsStreamParsing { get; }          // 构建命令行参数（每个工具的参数格式都不一样）     string BuildArguments(CliToolConfig tool, string prompt, CliSessionContext context);          // 解析输出（每个工具的输出格式都不一样）     CliOutputEvent? ParseOutputLine(string line);          // 提取会话ID（用于会话恢复）     string? ExtractSessionId(CliOutputEvent outputEvent); }

这样做的好处是什么？新增一个CLI工具，只需要写一个新的适配器，核心代码一行不用改。

举个例子，Claude Code的适配器是这样处理参数构建的：

public string BuildArguments(CliToolConfig tool, string prompt, CliSessionContext context) {     var escapedPrompt = EscapeShellArgument(prompt);          // 会话恢复参数     var sessionArg = string.Empty;     if (context.IsResume && !string.IsNullOrEmpty(context.CliThreadId))     {         sessionArg = $"--resume {context.CliThreadId}";  // Claude Code用双横线     }          return $"-p --output-format=stream-json {sessionArg} \"{escapedPrompt}\""; }

而Codex的适配器是这样的：

public string BuildArguments(CliToolConfig tool, string prompt, CliSessionContext context) {     var escapedPrompt = EscapeJsonString(prompt);          var sessionArg = string.Empty;     if (context.IsResume && !string.IsNullOrEmpty(context.CliThreadId))     {         sessionArg = $"resume {context.CliThreadId}";  // Codex不用双横线     }          return $"exec --json {sessionArg} \"{escapedPrompt}\""; }

看到没？差异被封装在适配器里，上层代码完全不用关心。

2.2 第二个大坑：流式输出的"时序地狱"

AI的回复是流式的，一个字一个字往外蹦。这在命令行里看着很酷，但在Web上实现起来简直是噩梦。

问题出在哪儿？异步读取 + 并发渲染 + 状态同步。

想象一下这个场景：

后端从CLI进程读取输出
通过SSE推送到前端
前端解析JSON
更新UI状态
触发Blazor重新渲染

这五步里，任何一步出问题，用户看到的就是乱码或者卡顿。

我最初的实现是这样的：

// 错误示范：直接在读取循环里更新UI while ((line = await reader.ReadLineAsync()) != null) {     var chunk = ParseJsonLine(line);     _currentMessage += chunk.Content;     StateHasChanged();  // 每读一行就刷新UI }

结果呢？**CPU直接飙到100%**，页面卡得像PPT。

为什么？因为StateHasChanged()会触发整个组件树的重新渲染，而AI输出的速度是每秒几十上百个字符，你让Blazor每秒渲染几十次，它不崩谁崩？

最后的解决方案是防抖 + 批量更新：

private System.Threading.Timer? _updateTimer; private readonly object _updateLock = new object(); private bool _hasPendingUpdate = false; private void QueueUIUpdate() {     lock (_updateLock)     {         if (_hasPendingUpdate) return;         _hasPendingUpdate = true;                  // 50ms内的更新合并成一次         _updateTimer?.Dispose();         _updateTimer = new Timer(_ =>         {             _hasPendingUpdate = false;             InvokeAsync(StateHasChanged);         }, null, 50, Timeout.Infinite);     } }

这样一来，不管AI输出多快，UI最多每50ms刷新一次，既保证了流畅度，又不会把浏览器搞崩。

2.3 第三个大坑：工作区隔离的"安全噩梦"

多用户场景下，每个人都有自己的工作区。听起来简单，做起来要命。

最直接的问题：用户A能不能访问用户B的文件？

如果你的回答是"不能"，那恭喜你，你需要考虑以下场景：

路径穿越攻击：../../etc/passwd
符号链接攻击：在工作区里创建一个指向系统目录的软链接
命令注入：用户输入里带;rm -rf /

我的解决方案是多层防护：

第一层：会话隔离

每个会话有独立的工作目录，目录名是随机生成的UUID：

public string GetOrCreateSessionWorkspace(string sessionId) {     lock (_workspaceLock)     {         if (_sessionWorkspaces.TryGetValue(sessionId, out var existing))             return existing;                  var workspacePath = Path.Combine(             GetEffectiveWorkspaceRoot(),             sessionId  // UUID，无法猜测         );                  Directory.CreateDirectory(workspacePath);         _sessionWorkspaces[sessionId] = workspacePath;         return workspacePath;     } }

第二层：路径验证

所有文件操作都要验证路径是否在工作区内：

private bool IsPathSafe(string workspacePath, string requestedPath) {     var fullPath = Path.GetFullPath(Path.Combine(workspacePath, requestedPath));     var normalizedWorkspace = Path.GetFullPath(workspacePath);          // 确保解析后的路径仍在工作区内     return fullPath.StartsWith(normalizedWorkspace, StringComparison.OrdinalIgnoreCase); }

第三层：命令白名单

CLI工具只能执行预定义的命令，用户输入会被转义：

private static string EscapeShellArgument(string argument) {     // 转义所有可能导致命令注入的字符     return argument         .Replace("\\", "\\\\")         .Replace("\"", "\\\"")         .Replace("$", "\\$")         .Replace("`", "\\`"); }

三、上下文管理：AI的"记忆"问题

这是整个项目里我最得意的一块设计。

你有没有遇到过这种情况：跟AI聊了半天，它突然"失忆"了，之前说的话全忘了？

这是因为AI模型有上下文窗口限制。Claude的上下文窗口是100K tokens，听起来很大，但如果你在讨论一个大型项目，贴几个文件进去，分分钟就爆了。

传统的解决方案是"截断"——超过限制就把最早的消息删掉。但这样做的问题是：可能把关键信息删掉了。

我设计了一套智能上下文管理系统：

3.1 上下文项的优先级

不是所有信息都同等重要。用户的问题比AI的回复重要，错误信息比普通输出重要，最近的消息比很久以前的消息重要。

public class ContextItem {     public ContextItemType Type { get; set; }     public string Content { get; set; }     public int EstimatedTokens { get; set; }     public int Priority { get; set; }  // 0-10，越高越重要     public bool IsIncluded { get; set; } = true; }

优先级的默认规则：

用户消息：7
错误信息：9（最高，因为通常是当前要解决的问题）
AI回复：5
代码片段：6
文件引用：4

3.2 智能压缩策略

当上下文快满的时候，系统会自动触发压缩。但不是简单地删除，而是智能摘要：

private async Task CompressSmartSummaryAsync(...) {     // 1. 高优先级项永远保留     var highPriorityItems = items.Where(i => i.Priority >= 7);          // 2. 最近的用户消息保留     var recentUserMessages = items         .Where(i => i.Type == ContextItemType.UserMessage)         .OrderByDescending(i => i.CreatedAt)         .Take(config.KeepRecentMessages);          // 3. 其他内容生成摘要     foreach (var item in itemsToCompress)     {         if (item.Type == ContextItemType.CodeSnippet)         {             // 代码片段：保留函数签名，删除实现细节             item.Content = GenerateCodeSnippetSummary(item.Content);             item.EstimatedTokens = TokenEstimator.EstimateTokens(item.Content);         }     } }

这样做的效果是：即使上下文被压缩了，AI仍然知道之前讨论过什么，只是细节没那么清楚了。

3.3 Token估算

准确估算Token数量是个技术活。不同语言的Token密度不一样：

public static int EstimateTokens(string text) {     // 中文：约1.5字符/Token     // 英文：约4字符/Token     var chineseChars = text.Count(c => c >= 0x4E00 && c <= 0x9FFF);     var otherChars = text.Length - chineseChars;          return (int)Math.Ceiling(chineseChars / 1.5 + otherChars / 4.0); }

代码的Token密度更高（因为有很多符号和关键字），所以单独处理：

public static int EstimateCodeTokens(string code) {     return (int)Math.Ceiling(code.Length / 3.5); }

四、移动端适配：那些让我抓狂的细节

"支持手机"这四个字，背后是无数个深夜的调试。

4.1 iOS Safari的100vh问题

你知道iOS Safari的100vh不是真正的视口高度吗？它包含了地址栏的高度，导致页面底部会被遮挡。

解决方案：

.container {     height: 100vh;     height: 100dvh;  /* 动态视口高度，iOS 15+支持 */     height: -webkit-fill-available;  /* 兼容旧版本 */ }

4.2 虚拟键盘弹出时的布局问题

手机上弹出键盘时，视口高度会变化，如果处理不好，输入框会被键盘遮挡。

我的解决方案是监听visualViewport的变化：

if (window.visualViewport) {     window.visualViewport.addEventListener('resize', () => {         const keyboardHeight = window.innerHeight - window.visualViewport.height;         document.documentElement.style.setProperty('--keyboard-height', `${keyboardHeight}px`);     }); }

然后在CSS里使用这个变量：

.input-area {     padding-bottom: calc(env(safe-area-inset-bottom) + var(--keyboard-height, 0px)); }

4.3 触摸目标大小

苹果的人机界面指南建议触摸目标至少44x44像素。但很多开发者（包括以前的我）都忽略了这一点。

.touch-target {     min-width: 44px;     min-height: 44px;     padding: 12px;  /* 即使内容小，点击区域也要够大 */ }

五、性能优化：从"能用"到"好用"

5.1 文件树的虚拟滚动

工作区可能有成百上千个文件，如果全部渲染到DOM里，页面会卡死。

解决方案是懒加载 + 虚拟滚动：

private const int MaxVisibleNodes = 100; private int _currentVisibleNodes = MaxVisibleNodes; // 只渲染可见区域的节点 private List<WorkspaceFileNode> GetVisibleNodes() {     return _workspaceFiles         .Take(_currentVisibleNodes)         .ToList(); } // 滚动到底部时加载更多 private void LoadMoreNodes() {     _currentVisibleNodes += 50;     StateHasChanged(); }

5.2 Markdown渲染缓存

AI的回复通常包含大量Markdown，每次渲染都要解析一遍很浪费。

private readonly Dictionary<string, MarkupString> _markdownCache = new(); private MarkupString RenderMarkdown(string? markdown) {     if (_markdownCache.TryGetValue(markdown, out var cached))         return cached;          var html = Markdown.ToHtml(markdown, _markdownPipeline);     var result = new MarkupString(html);          // 限制缓存大小     if (_markdownCache.Count > 100)         _markdownCache.Clear();          _markdownCache[markdown] = result;     return result; }

5.3 输出状态的防抖保存

用户的输出结果需要持久化，但不能每次更新都写数据库。

private void QueueSaveOutputState() {     lock (_outputStateSaveLock)     {         if (_hasPendingOutputStateSave) return;         _hasPendingOutputStateSave = true;                  _outputStateSaveTimer?.Dispose();         _outputStateSaveTimer = new Timer(async _ =>         {             _hasPendingOutputStateSave = false;             await SaveOutputStateAsync();         }, null, OutputStateSaveDebounceMs, Timeout.Infinite);     } }

六、未来的坑（和机会）

这个项目还在持续迭代，有几个方向我特别想做：

6.1 多模型对比

同一个问题，让Claude和GPT同时回答，对比结果。这对于选择最佳方案很有帮助。

技术上的挑战是并行执行 + 结果同步：

public async Task<List<ModelResponse>> ExecuteParallelAsync(     string prompt,      List<string> toolIds) {     var tasks = toolIds.Select(toolId =>          ExecuteSingleAsync(prompt, toolId));          return await Task.WhenAll(tasks); }

6.2 实时协作

多人同时编辑同一个工作区，像Google Docs那样。

这需要引入CRDT（无冲突复制数据类型）或者OT（操作转换）算法，复杂度直接上一个台阶。

6.3 插件系统

让用户可以自己添加新的CLI工具适配器，不需要改核心代码。

架构上已经预留了扩展点：

public interface IPluginService {     void RegisterCliAdapter(ICliToolAdapter adapter);     List<PluginUIComponent> GetPluginUIComponents(string location); }

七、写在最后

回头看这个项目，最大的收获不是代码本身，而是对复杂系统的理解。

一个"简单"的需求背后，可能涉及：

进程管理和IPC
流式数据处理
安全和隔离
跨平台兼容
性能优化
用户体验

每一个点展开都是一个深坑。

但这也是软件开发的魅力所在，不是吗？

你永远不知道下一个Bug会把你带到哪个知识领域。

如果你对这个项目感兴趣，欢迎来GitHub上看看：WebCodehttps://github.com/xuzeyu91/WebCode

有问题可以在评论区讨论，我会尽量回复。

最后，如果这篇文章对你有帮助，点个赞呗？写了一整天，手都酸了 😂

更多AIGC文章

RAG技术全解：从原理到实战的简明指南

更多VibeCoding文章

从“手机上写代码“的疯狂想法，到一套完整的AI编程平台架构——WebCode深度技术剖析

优质文章学习记录

一、那个让我失眠的需求

二、架构设计：我踩过的那些坑

2.1 第一个大坑：CLI工具的"性格"都不一样

2.2 第二个大坑：流式输出的"时序地狱"

2.3 第三个大坑：工作区隔离的"安全噩梦"

三、上下文管理：AI的"记忆"问题

3.1 上下文项的优先级

3.2 智能压缩策略

3.3 Token估算

四、移动端适配：那些让我抓狂的细节

4.1 iOS Safari的100vh问题

4.2 虚拟键盘弹出时的布局问题

4.3 触摸目标大小

五、性能优化：从"能用"到"好用"

5.1 文件树的虚拟滚动

5.2 Markdown渲染缓存

5.3 输出状态的防抖保存

六、未来的坑（和机会）

6.1 多模型对比

6.2 实时协作

6.3 插件系统

七、写在最后

Read more

基于Java和高德开放平台的WebAPI集成实践-以搜索POI2.0为例

Linux网络 | 理解Web路径以及实现一个简单的helloworld网页

AI Skills：前端新的效率神器！

【保姆级教程】告别命令行！ClawX：首款 OpenClaw 可视化桌面客户端，零门槛玩转 AI 智能体！

一、那个让我失眠的需求

二、架构设计：我踩过的那些坑

2.1 第一个大坑：CLI工具的"性格"都不一样

2.2 第二个大坑：流式输出的"时序地狱"

2.3 第三个大坑：工作区隔离的"安全噩梦"

三、上下文管理：AI的"记忆"问题

3.1 上下文项的优先级

3.2 智能压缩策略

3.3 Token估算

四、移动端适配：那些让我抓狂的细节

4.1 iOS Safari的100vh问题

4.2 虚拟键盘弹出时的布局问题

4.3 触摸目标大小

五、性能优化：从"能用"到"好用"

5.1 文件树的虚拟滚动

5.2 Markdown渲染缓存

5.3 输出状态的防抖保存

六、未来的坑（和机会）

6.1 多模型对比

6.2 实时协作

6.3 插件系统

七、写在最后

Read more

基于Java和高德开放平台的WebAPI集成实践-以搜索POI2.0为例

Linux网络 | 理解Web路径 以及 实现一个简单的helloworld网页

AI Skills：前端新的效率神器！

【保姆级教程】告别命令行！ClawX：首款 OpenClaw 可视化桌面客户端，零门槛玩转 AI 智能体！

Linux网络 | 理解Web路径以及实现一个简单的helloworld网页