背景与问题
当前 AI 助手普遍存在算力堆砌、记忆缺失及生态封闭等问题。现有方案往往依赖云端大模型,导致 Token 消耗巨大,且缺乏长时记忆能力,会话上下文受限后需重新开始。
核心痛点
- 算力成本:过度依赖大模型处理简单任务,运行成本高。
- 本地化支持:对国内社交通信软件生态支持不足。
- 记忆能力:缺乏有效的长短期记忆机制,无法积累知识。
解决方案设计
仿生大脑架构
为解决算力问题,提出'不堆算力,要有脑'的理念,模拟人脑工作机制:
- 潜意识层:负责简单日常任务(技能执行),通过本地量化模型完成。
- 主意识层:负责复杂逻辑推理与决策,调用云端或更强模型。
- 左右脑机制:左脑负责逻辑思考,右脑负责行为输出。
采用本地量化大模型(如 Ollama)作为基础,80% 日常任务由本地完成,20% 复杂技能由云端完成。
记忆系统
仿照人脑记忆结构,设计健忘症治愈方案:
- 记忆片段形成:从对话中聚类生成记忆片段。
- 记忆权重管理:支持永久记忆、长期记忆与短期记忆。
- 优先级强化:随时间或对话焦点调整记忆权重。
- System Prompt 扩展:结合多轮对话短时记忆与长时检索。
- 向量化索引:使用嵌入式 KV 数据库保证检索效率。
自我演进机制
通过 Cron 定时任务实现自我总结与演化:
- 记忆整理:每日过一遍记忆,留精华去糟粕。
- 认知升华:基于记忆边界进行网络搜索补充资料。
- 模型微调:利用提炼数据对本地模型进行微调,形成匹配的数字分身。
整体架构
系统采用整洁架构(Clean Architecture)风格,分层如下:
- 外部系统:社交平台、消息应用、Web Dashboard、CLI/TUI。
- 基础设施层:Ollama 本地模型、云端大模型、数据库、日志系统。
- 核心层:Brain(仿生大脑)、Memory(记忆系统)、Skills(技能管理)、Capability(能力管理)。
- 应用层:Session(会话管理)、Cron(定时任务)、Embedding(向量化服务)、Training(自训练模块)。
技术选型
- 语言:Go 1.x,高性能并发,原生编译。
- 本地模型:Qwen 量化版,平衡速度与智能。
- 数据库:Badger(KV 存储)+ SQLite(关系型)。
- 前端:React + Vite。
- 架构:整洁架构,职责清晰,易于维护。
结语
本方案通过本地化部署与仿生记忆设计,在降低算力的同时实现了 AI 助手的自我演进能力,为构建低成本、高智能的本地 AI 助手提供了可行的架构参考。

