本地运行 Google 开源 AI 大模型 Gemma 完整教程
本文详细演示了如何在本地环境部署谷歌开源大模型 Gemma,涵盖 Ollama 安装、模型拉取及 JAN AI 界面配置流程。同时分析了不同参数量模型对显存的要求,并结合 CUDA 生态提供显卡选购建议,帮助用户实现低成本、高隐私的本地 AI 推理体验。

本文详细演示了如何在本地环境部署谷歌开源大模型 Gemma,涵盖 Ollama 安装、模型拉取及 JAN AI 界面配置流程。同时分析了不同参数量模型对显存的要求,并结合 CUDA 生态提供显卡选购建议,帮助用户实现低成本、高隐私的本地 AI 推理体验。

谷歌发布了轻量级开源系列模型 Gemma,其性能强大,可与主流开源模型竞争。通过 Ollama 可轻松部署 Gemma 模型,并使用 JAN AI 美化 UI 界面。显卡在 AIGC 应用中至关重要,推荐选择性能强、显存大的 NVIDIA 系列显卡。
半个月前,谷歌发布了新一代 AI 模型 Gemma,并宣称这是全球性能最强大的轻量级开源系列模型。

根据 Google 介绍,开源模型 Gemma 使用了和 Gemini 同源的技术,总共有 20 亿参数和 70 亿参数两种规模,每个规模又分预训练和指令微调两个版本。

在 Gemma 官方页面上,Google 给出了 Gemma 在语言理解、推理、数学等各项标准测试中的得分,其中 70 亿参数模型击败了主流开源模型 Llama-2 和 Mistral,直接登顶 Hugging Face 开源大模型排行榜,成为目前全球最火热的开源大模型之一。

与 Gemini 的全家桶路线不同,Gemma 这次主打轻量高性能,拥有 2b、2b 全量版、7b、7b 全量版 4 种版本。

其中最基础的 2b 模型即便是在没有独显的笔记本电脑上都能尝试运行,而规模更大的 7b、7b 全量版分别需要 8GB 和 16GB 显存。
经过实测,虽然 Gemma 的使用体验不如 ChatGPT-4 等成熟的闭源大模型,但是本地运行模式还是有其存在的意义的,对于私密性要求较强的用户,也可以在断网的情况下本地加载运行,不用担心相关信息泄露等等。

本次就为大家分享本地部署 Gemma 的操作流程,并演示如何使用 JAN AI 来实现 UI 界面访问 Gemma。
Ollama 是一个专为运行、创建和分享大型语言模型而设计的开源项目,为开发者和研究者提供了一个平台,使得他们可以更方便地部署、管理和使用这些大型语言模型。目前 Ollama 支持 macOS、Windows、Linux 和 Docker 等多种安装方式,还能通过 API 方式为本地 AI 服务提供便捷途径。
目前 Ollama 支持的模型如下图所示:

这里我们以 Windows 系统为例来演示,首先去 Ollama 的官网或者 GitHub 页面下载最新的 Windows 版本安装包:


下载安装包后,一路点击'下一步'安装即可。

完成安装后,点击桌面图标运行 Ollama,此时桌面右下角 Windows 系统托盘里有正在运行羊驼图标:

接下来我们进入 CMD 命令提示符,输入 ollama --version,当看到 ollama 版本号正确显示时,就已经完成安装了。

这一步我们直接使用最简单的方法,使用 Ollama 来拉取 Gemma 的模型文件。请注意,由于文件服务器在国外,所以我们需要一些网络技巧,请自行研究。
以对电脑配置要求最低的 Gemma 2b 基础版模型为例,在命令提示符中,我们输入 ollama run gemma:2b 代码并回车,Ollama 会自动从模型库中拉取模型文件并进行运行。当模型加载后,会显示 success 的标识,此时我们就可以输入汉字与 Gemma:2b 进行对话了。

如果想要结束对话,我们可以在 Gemma 的信息输入框中输入 /bye 即可。

到此为止,Gemma 在我们本地已经部署成功了,这里顺带说些其他的事儿。
ollama run gemma:2b-instruct-fp16
ollama run gemma:7b-instruct-fp16
ollama list 来实现:
Ollama 的其他命令可以参考下图:

通过 Ollama 在本地部署 Gemma 后,我们虽然能在命令提示符中与模型对话,但是这种方式未免也太过麻烦了,所以还是需要有一个类似 nextChat 之类的软件来美化一下 UI 界面,同时还可以实现更多功能。

本来 Ollama 官方推出了 open-webui 这个开源项目,不过目前该项目尚未推出 Windows 安装包,在 wsl 中使用 docker 安装的方式又有点儿麻烦,所以经过实现,这里还是选择 UI 非常好看的 JAN AI 来与 Ollama 进行链接吧。
首先我们要到 JAN 的官方网站下载 Windows 客户端,并直接安装:

在 JAN 的官网上,有非常详细的操作手册,我们可以在其中找到关于如何链接 Ollama 的方法。
首先我们要通过命令提示符启动 Ollama 服务器,并且加载运行我们要跑的 Gemma 版本,这里以 7b 全量版为例:

根据有关 OpenAI 兼容性的 Ollama 文档,Ollama 在运行时会提供类似 OpenAI 的 API 服务,我们可以使用网址 http://localhost:11434/v1/chat/completions 连接到 Ollama 服务器。
我们需要去 JAN 的安装地址,一般是 C:\Users\你的用户名\jan\engines 中找到 penai.json 文件,在其中修改为 Ollama 服务器的完整网址。
示例如下:
{
"full_url": "http://localhost:11434/v1/chat/completions"
}
进入 jan 安装位置的 models 文件夹,创建一个在 Ollama 中运行的模型同名的文件夹,例如 gemma:7b-instruct-fp16。

然后在文件夹内创建一个 model.json 文件,在其中将 id 属性设置为 Ollama 模型名称,将格式属性设为 api,将引擎属性设为 openai,将状态属性设为 ready。
示例如下:
{
"sources": [
{
"filename": "gemma:7b-instruct-fp16",
"url": "https://ollama.com/library/gemma:7b-instruct-fp16"
}
],
"id": "gemma:7b-instruct-fp16",
"object": "model",
"name": "Ollama - gemma:7b-instruct-fp16",
"version": "1.0",
"description": "gemma:7b-instruct-fp16 by ollama",
"format": "api",
"settings": {},
"parameters": {},
"metadata": {
"author": "Meta",
"tags": ["General", "Big Context Length"]
},
"engine": "openai"
}
重新启动 Jan,在模型 HUB 中找到我们刚才新建的 gemma:7b-instruct-fp16,然后点击'USE'即可。

接下来我们就可以和 Gemma 进行正常对话了,比如问一问它,写年终总结报告要注意点啥事儿:


目前 AIGC 领域如火如荼,除了如本文所述,在本地部署的 AI 语言大模型之外,stable diffusion 等开源文生图的应用更是广泛,为我们的生活和创造提供了绝佳动力。
由于 AIGC 应用中,GPU 用来推理的效率要比 CPU 强的太多,所以我们需要一张性能强、显存大的显卡来更好的提高本地 AIGC 应用的运行效率,这是刚需,真的没法省。
而 NVIDIA 系列的显卡因为早早布局了 CUDA,所以在 AI 领域无疑拥有近乎无解的统治力,要玩 AIGC 的话还得选 N 卡为主,AMD 和 Intel 红蓝两家目前还需要追赶。RTX30 系 N 卡由于已经停产,并且在算力方面整体不如 RTX40 系显卡(毕竟 4070Ti 就要赶上前期间 3090 了),所以个人的建议还是买新不买旧,就从 RTX40 系显卡中捡显存大的型号选购得了。
这里为了方便大家对比,我整理出了当前 RTX40 系显卡型号的参数列表:

可以看到,首选肯定是 24GB 满配显存的 RTX4090 了,无论是利用 AIGC 干活儿还是游戏娱乐都是目前消费级显卡中的第一把好手,就是目前价格波动较大,让人有点难受。而 4090D 由于专门阉割了 AIGC 会用到的 CUDA 核心和 Tensor 核心数量,所以虽然市场价更低些,但是反而不如 4090 值得。
对于大部分玩家而言,退而求其次的选择则是 4080Super、4080、4070TiSuper、4060Ti-16G 这几张 16GB 显存的显卡。毕竟算力高低无非是影响 AIGC 干活儿效率而已,但是显存不够大,那有些本地大模型是真的跑不起来,连门槛都进不了,确实会耽误事儿。
其中 4060Ti-16G 作为最便宜的 16GB 显存 N 卡,还是值得着重看看的。
最后就是关于显卡品牌的选择了,目前华硕、微星、技嘉、七彩虹等一线显卡商中,技嘉因为之前大家都知道的宣发事故,导致这一两年各产品线的价格都相对要更低一些,仅从性价比方面来看其实是真挺香的。
其他的二、三线品牌就不一一列举了,如果不追求一线大厂的话,那大家可以凭着预算随意选购即可。


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online