Ollama 本地部署全攻略：大模型深度解析与实操教程 | 极客日志

Ollama 本地部署全攻略：大模型深度解析与实操教程 | 极客日志

brew install ollama

curl -fsSL https://ollama.com/install.sh | sh
# 或者
sudo apt install ollama  # Ubuntu
sudo dnf install ollama   # Fedora

docker pull ollama/ollama
docker run -p 11434:11434 ollama/ollama

git clone https://github.com/ollama/ollama.git
cd ollama
make build

ollama --version

ollama serve

ollama serve

查看模型列表：使用以下命令列出所有可用的模型：
```
ollama list
```
查看版本：查看 Ollama 版本：
```
ollama -v
```
运行模型：下载完成后，使用以下命令部署运行模型：
```
ollama run llama3
```
示例交互：
```
ollama run llama3 "你是谁？"
```

多行输入：

ollama run my_model """
Hello,
world!
"""

生成响应
```
POST /api/generate
```
使用提供的模型为给定提示生成响应。这是一个流式处理终结点，因此会有一系列响应。最终响应对象将包括来自请求的统计信息和其他数据。

参数 model：（必填）模型名称 prompt：生成响应的提示 images：（可选）base64 编码图像列表（对于多模态模型，例如 llava)

高级参数（可选）： format：返回响应的格式。目前唯一接受的值是 json options：模型文件文档中列出的其他模型参数，例如 temperature system：系统消息（覆盖 Modelfile) template：要使用的提示模板（覆盖 Modelfile) context：从上一个请求返回的上下文参数，这可用于保持较短的对话记忆 stream：如果响应将作为单个响应对象返回，而不是对象流 false raw：如果不对提示应用任何格式。如果您在对 API 的请求中指定了完整的模板化提示，则可以选择使用该参数 true keep_alive：控制模型在请求后加载到内存中的时间（默认：5m)

示例：
```
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?"
}'
```
输出：
```
{
  "model": "llama3",
  "created_at": "2023-08-04T08:52:19.385406455-07:00",
  "response": "The",
  "done": false
}
```
聊天对话
```
POST /api/chat
```
在与提供的模型的聊天中生成下一条消息。这是一个流式处理终结点，因此会有一系列响应。可以使用 stream: false 禁用流式处理。

参数 model：（必填）模型名称 messages：聊天的消息，这可以用来保留聊天记忆该对象具有以下字段：message role：消息的角色，或 system/user/assistant content：消息内容 images（可选）：要包含在消息中的图像列表（对于多模态模型，例如 llava)

高级参数（可选）： format：返回响应的格式。目前唯一接受的值是 json options：模型文件文档中列出的其他模型参数，例如 temperature stream：如果响应将作为单个响应对象返回，而不是对象流 false keep_alive：控制模型在请求后加载到内存中的时间（默认：5m)

示例：
```
curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    {
      "role": "user",
      "content": "why is the sky blue?"
    }
  ]
}'
```

拉取模型： Ollama 库中的模型可以通过提示进行自定义。例如，要自定义模型：llama3
```
ollama pull llama3
```

创建 Modelfile：创建一个 Modelfile 文件，指定基础模型和所需的参数调整：

FROM: llama3
PARAMETER temperature 0.5
PARAMETER num_ctx 512
TEMPLATE "{{ .Prompt }}"
SYSTEM "你是一个专业的助手。"

使用 Modelfile 创建模型：使用 Ollama CLI 工具根据 Modelfile 创建新的定制模型：
```
ollama create my_custom_model -f ./Modelfile
```
运行定制模型：创建完成后，可以像运行普通模型一样运行定制模型：
```
ollama run my_custom_model "输入你的提示"
```

准备数据集：收集并预处理特定领域的数据，准备用于模型训练。
微调模型：使用 Ollama 的训练工具对模型进行微调（注：Ollama 本身主要侧重于推理，微调通常结合 Llama.cpp 或其他工具完成，此处指概念性指导）。
```
ollama train my_custom_model --dataset path/to/dataset
```

Python 库：使用 ollama-python 库在 Python 应用程序中调用 Ollama 模型：

import ollama
client = ollama.Client()
response = client.generate(model='my_model', prompt='Hello, world!')
print(response['response'])

JavaScript 库：在 Web 应用程序中使用 ollama-js 库与 Ollama 服务交互。
其他语言支持：Ollama 致力于提供更多编程语言的库，以满足不同开发者的需求。