Gomoon 开源:一款支持多模型与本地向向量存储的桌面大模型工具
背景与动机
随着大语言模型(LLM)技术的快速发展,如何高效、安全地将其集成到日常开发工作中成为了许多开发者关注的焦点。由于部分国际主流模型服务存在访问限制或账号稳定性问题,通过国内 API 供应商接入或使用本地部署方案成为了一种趋势。
在尝试了多种现有的网页端和客户端工具后,发现它们在功能定制、上下文管理以及数据隐私方面仍存在不足。基于此,我开发了 Gomoon 这款桌面应用,旨在提供一个灵活、高效且注重隐私的大模型交互平台。经过八个月的迭代,目前版本已稳定支持多种模型接入及本地知识库检索功能。

核心功能介绍
1. 灵活的模型配置
Gomoon 支持通过 API Key 接入云端大模型,同时也支持本地部署的模型调用(如 Ollama)。用户只需在设置页面填入相应的厂商 API Key,即可切换不同的模型服务。
配置示例:
- API 类型:选择对应的服务商(如 OpenAI, Azure, 国内兼容接口等)。
- 模型选择:支持 GPT-4, GPT-3.5, Llama 系列等。
- 参数调整:可自定义 Temperature, Max Tokens 等推理参数。

2. 智能助手系统
内置常用助手(翻译、计算器、前端专家等),并支持用户自定义 Prompt 创建专属助手。每个助手可绑定特定模型,例如前端助手绑定 GPT-4 以获得更高质量的代码建议,而翻译助手则使用轻量级模型以节省 Token。
助手特性:
- 一键导入导出:支持将配置的 Prompt 模板打包分享。
- 场景绑定:不同任务自动匹配最优模型。
- 扩展计划:后续将支持在线上传分析功能,丰富助手生态。

3. 两种对话模式设计
针对不同的使用场景,Gomoon 设计了问答模式和连续对话模式,以优化 Token 消耗和上下文管理。
- 问答模式:适用于单次任务(如翻译、报错分析)。每次请求仅携带当前内容,不保留历史上下文。这能显著降低 Token 成本,并避免历史干扰导致的幻觉,提高单次回答的准确度。
- 连续对话模式:适用于复杂任务的多轮交互。完整保留会话历史,支持对单条消息进行删除、重新生成、中途更换助手或二次编辑。这种灵活性大大提升了长文本处理的体验。
4. 效率快捷键
为了减少鼠标操作,提升工作流效率,Gomoon 提供了丰富的快捷键支持。
- 全局唤醒:默认
Ctrl/Cmd + G唤起或隐藏窗口。支持置顶显示,方便作为 IDE 旁的辅助 Mentor。 - 双击复制:灵感源自 DeepL。选中文字后按
Ctrl + C两次,即可快速唤起 Gomoon 进行翻译或代码分析。

5. 多功能小工具
除了基础对话,Gomoon 集成了多种实用工具,支持多模态输入。
- 文件解析:支持发送文件、图片 OCR 识别、链接解析。
- 组合发送:允许文本、图片等多种内容组合发送。注意:若需直接提问图片内容,建议使用支持视觉理解的模型(如 GPT-4);普通模型可使用 Gomoon 自带的 OCR 提取文字后再提问。
- 结果导出:支持 Markdown 格式和图片长截图导出,便于知识沉淀和分享。

6. 记忆胶囊(RAG 实现)
这是 Gomoon 的核心亮点之一。所谓的"记忆胶囊",本质上是一个本地化的 RAG(检索增强生成)系统。
技术原理:
- 文档向量化:用户上传的 Markdown 文档会被本地 Embedding 模型处理,转化为向量数据。
- 向量存储:向量数据存储在本地数据库中,形成知识库。
- 检索与生成:提问时,系统先检索相关片段,再结合 Prompt 发送给大模型生成答案。
应用场景:
- 团队私域知识查询(内部文档、规范等)。
- 个人知识库管理。
- 无需联网即可使用的离线知识问答。

性能表现: 经测试,16GB 内存的 Mac 和 Windows 电脑均可流畅运行记忆胶囊的存储与查询功能,完全免费且数据不出本地。
7. 对话历史管理
- 自动保存:新建对话时自动归档上次记录。
- 搜索与收藏:支持关键词精确查找历史记录,可标记重要对话为收藏。
- 清理机制:一键清除非收藏的历史记录,保持界面整洁。
8. UI 与主题
- 响应式布局:窗口大小调整时内容自适应。
- 主题切换:提供默认主题及"月光白"亮色主题,满足不同审美需求。

安全性与隐私
所有配置信息、对话历史及记忆胶囊数据均存储于本地。项目已开源,代码透明,确保用户数据不会被第三方服务器泄露或滥用。对于涉及敏感信息的业务场景,推荐使用本地模型配合记忆胶囊功能,实现完全离线的 AI 辅助。
技术架构与开发思路
为什么选择本地化?
云端 API 虽然强大,但存在延迟、费用及隐私风险。本地化部署(Local First)是解决这些问题的关键路径。Gomoon 采用了混合架构:
- 控制层:负责 UI 渲染与状态管理。
- 推理层:支持远程 HTTP 请求与本地进程通信(如 Ollama IPC)。
- 存储层:本地 SQLite 或嵌入式向量数据库。
开发挑战与解决方案
- 上下文窗口管理:连续对话中 Token 容易超限。解决方案是引入滑动窗口策略,自动截断早期对话,保留最近的关键信息。
- OCR 精度:内置 OCR 模块针对代码截图进行了优化,提高了特殊字符的识别率。
- 跨平台兼容性:采用跨平台框架构建,确保 Windows 与 macOS 体验一致。
使用指南
安装与启动
- 从官方仓库下载对应系统的安装包。
- 首次启动需授权网络权限以获取模型更新。
- 进入设置页配置 API Key。
配置最佳实践
- Token 预算:在设置中设定每日 Token 上限,防止意外消耗。
- 模型选择:简单任务使用小模型,复杂推理使用大模型。
- 备份习惯:定期导出重要的记忆胶囊和对话历史。
未来规划
- 插件系统:开放 API 供社区开发第三方助手。
- 协作功能:支持多人共享记忆胶囊库。
- 移动端适配:探索 iOS/Android 版本的可能性。
结语
Gomoon 是一款致力于提升开发者效率的开源工具。它不仅仅是一个聊天窗口,更是连接本地知识与云端算力的桥梁。通过持续迭代,希望能为更多开发者提供安全、高效的 AI 辅助体验。欢迎 Star 项目并提出宝贵意见。
注:本文档基于 Gomoon 公开功能整理,具体版本特性请以官方发布为准。

