目前,LLAMA3.1 模型分为 8B、70B、405B 三个版本。其中 70B 和 405B 对显存要求极高,通常需要多卡或专业服务器支持,而 8B 版本在消费级显卡上即可流畅运行。LLAMA3.1 8B 的性能表现约相当于 ChatGPT-3.5,适合个人本地化部署。
根据测试,配备 RTX 4080、RTX 2080 甚至 Intel Ultra 9 185H(核显性能约等于 GTX 1060)的设备均可运行该模型。显卡性能越好,推理响应速度越快。若使用 CPU 推理,速度会显著下降,建议至少配备 8GB 以上独立显存。
1、安装 Ollama
Ollama 是专为本地化运行大模型设计的软件,支持多种开源模型。请前往官网下载对应操作系统的安装包:
Windows 用户可直接运行 .msi 安装程序;Linux/Mac 用户可通过终端执行安装脚本。
2、设置环境变量
为了优化模型存储路径及允许外部应用连接,建议在系统环境变量中进行配置。
Windows 环境: 打开 CMD 或 PowerShell,输入以下命令临时设置:
set OLLAMA_HOST=127.0.0.1
set OLLAMA_MODELS=D:\ollama\models
set OLLAMA_ORIGINS=app://obsidian.md*
永久设置方法:
在系统属性中进入'环境变量',新建变量 OLLAMA_HOST、OLLAMA_MODELS、OLLAMA_ORIGINS。
参数说明:
OLLAMA_HOST:设置为127.0.0.1仅限本机访问,安全性更高;设为0.0.0.0则允许局域网内其他设备访问。OLLAMA_MODELS:指定模型文件保存位置。默认路径为C:\Users\用户名\.ollama\models,建议修改至空间充足的磁盘分区。OLLAMA_ORIGINS:用于白名单控制,允许 Obsidian 插件通过特定协议调用 Ollama API。
3、下载并运行模型
首先需下载嵌入模型(Embedding Model),用于知识库检索:
ollama pull nomic-embed-text
随后下载并运行主语言模型:
ollama run llama3.1:8b
首次运行时会自动下载模型权重文件(约 5GB)。后续使用时,每次会话前需确保模型已加载,可再次执行上述命令或在后台保持服务运行。
常见问题处理:
- 网络错误:国内网络环境下可能无法直接拉取模型。可尝试使用代理工具,或在一台能联网的电脑上下载模型文件后,手动拷贝至
OLLAMA_MODELS指定的目录中。 - 显存不足:若运行报错,可尝试使用量化版本,如
llama3.1:8b-q4_0。
4、Obsidian 安装
前往 Obsidian 官网下载安装最新版客户端,无特殊硬件要求。
5、安装 Copilot 插件
在 Obsidian 中启用社区插件以接入 AI 能力:
- 打开设置 -> 第三方插件 -> 关闭安全模式。


