Ollama 是一个用于构建大语言模型应用的工具,它提供了一些简单易用的 CLI 和服务器,能够让用户轻松下载、运行和管理各种开源 LLM。
一、如何使用?
本文以 Windows 环境为例,但实际体验来看,同等硬件环境下 Linux 系统体验会更流畅些。
1.1 安装 Ollama
Windows 用户可访问官网下载安装包。Docker 版本安装说明如下:
CPU 版本
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
GPU 版本
同时需要先安装 Nvidia Container Toolkit,下载地址:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Ollama 常用命令
启动 Ollama
ollama serve
查看已有模型列表
ollama list
下载模型 - 以千问 72b 为例
ollama pull qwen2:72b
运行模型
ollama run qwen2:72b
Docker 容器运行模型
docker exec -it ollama ollama run qwen2:72b
AI 提效 - 本地代码补全助手 + AI 助手
通过结合代码生成模型、Ollama 和 IDE 插件来打造强大的代码补全助手。例如使用 Codeqwen 7B 模型 + VSCode 的 Continue 插件,即可实现高效便捷的代码补全功能。
推荐的模型组合:Codeqwen 7B + Qwen2 7B 模型。
ollama run codeqwen
ollama run qwen2:7b
这两个模型中,Codeqwen 7B 是专门用于代码补全的模型,Qwen2 7B 是通用的聊天模型,且两者都不是重量级模型,本地运行负担较小。结合使用可实现代码补全 + AI 助手的聊天功能。
下载并运行好上述两个模型后,前往 VSCode 进行配置,编辑 Continue 插件的 config.json 文件:
{
"models": [
{
"title": "Codeqwen 7B",
"provider": "ollama",
"model": "codeqwen",
"apiBase": "http://127.0.0.1:11434"
}
],
"tabAutocompleteModel": {
"title": "Qwen2 7B",
"provider": "ollama",
"model": "qwen2:7b",
"apiBase": "http://127.0.0.1:11434"
}
}
加上 RAG 向量检索优化聊天
Continue 插件内置了 @codebase 上下文 provider,能自动从代码库检索最相关的代码片段。借助 Ollama 与 LanceDB 向量化技术,可以更高效地进行代码检索和聊天体验。
ollama pull nomic-embed-text
ollama run nomic-embed-text
继续配置 config.json 启用相关功能。
完成配置后测试代码补全效果及对话功能。其他有价值的点还包括代码自动注释等功能可自行拓展。至此,一个基础的本地 Cursor 风格助手基本搭建完成。