Gomoon 开源:一款支持多模型与本地向向量存储的桌面大模型工具
背景与动机
随着大语言模型(LLM)技术的快速发展,如何高效、安全地将其集成到日常开发工作中成为了许多开发者关注的焦点。由于部分国际主流模型服务存在访问限制或账号稳定性问题,通过国内 API 供应商接入或使用本地部署方案成为了一种趋势。
在尝试了多种现有的网页端和客户端工具后,发现它们在功能定制、上下文管理以及数据隐私方面仍存在不足。基于此,我开发了 Gomoon 这款桌面应用,旨在提供一个灵活、高效且注重隐私的大模型交互平台。经过八个月的迭代,目前版本已稳定支持多种模型接入及本地知识库检索功能。

核心功能介绍
1. 灵活的模型配置
Gomoon 支持通过 API Key 接入云端大模型,同时也支持本地部署的模型调用(如 Ollama)。用户只需在设置页面填入相应的厂商 API Key,即可切换不同的模型服务。
配置示例:
- API 类型:选择对应的服务商(如 OpenAI, Azure, 国内兼容接口等)。
- 模型选择:支持 GPT-4, GPT-3.5, Llama 系列等。
- 参数调整:可自定义 Temperature, Max Tokens 等推理参数。

2. 智能助手系统
内置常用助手(翻译、计算器、前端专家等),并支持用户自定义 Prompt 创建专属助手。每个助手可绑定特定模型,例如前端助手绑定 GPT-4 以获得更高质量的代码建议,而翻译助手则使用轻量级模型以节省 Token。
助手特性:
- 一键导入导出:支持将配置的 Prompt 模板打包分享。
- 场景绑定:不同任务自动匹配最优模型。
- 扩展计划:后续将支持在线上传分析功能,丰富助手生态。

3. 两种对话模式设计
针对不同的使用场景,Gomoon 设计了问答模式和连续对话模式,以优化 Token 消耗和上下文管理。
- 问答模式:适用于单次任务(如翻译、报错分析)。每次请求仅携带当前内容,不保留历史上下文。这能显著降低 Token 成本,并避免历史干扰导致的幻觉,提高单次回答的准确度。
- 连续对话模式:适用于复杂任务的多轮交互。完整保留会话历史,支持对单条消息进行删除、重新生成、中途更换助手或二次编辑。这种灵活性大大提升了长文本处理的体验。
4. 效率快捷键
为了减少鼠标操作,提升工作流效率,Gomoon 提供了丰富的快捷键支持。
- 全局唤醒:默认
Ctrl/Cmd + G唤起或隐藏窗口。支持置顶显示,方便作为 IDE 旁的辅助 Mentor。





