GGUF(GPT-Generated Unified Format)是一种专为大规模语言模型设计的二进制文件格式,支持将模型分割成多个分片(
*-of-*.gguf)。当从开源社区(如 HuggingFace 或 ModelScope)下载量化模型时,常会遇到分片存储的情况。本教程将引导你使用 llama.cpp 工具包中的llama-gguf-split,将这些分片合并为一个完整的 GGUF 模型文件。
适用场景
- 适用对象:已下载多分片的 GGUF 量化模型用户;
- 使用工具:
llama-gguf-split(合并)及llama-gguf-hash(校验); - 关键收益:快速、无损地将切分后的模型恢复为单一文件,便于后续推理调用或二次分发。
提示:以下所有 文件路径、版本号、模型名称 等均可根据实际情况替换,请务必自行确认再执行。
环境准备
- 操作系统:Ubuntu 20.04 / 22.04 LTS
- Python 版本:3.8 及以上
sudo apt update && sudo apt install -y unzip
工具获取
1. 安装 ModelScope(可选)
如果你尚未下载分片模型,可先安装并使用 ModelScope 客户端:
pip install modelscope
2. 从官方仓库下载 llama.cpp 预编译工具
- 访问 llama.cpp Releases,找到最新版本(示例:
b5162)。 - 执行以下命令:
# 示例版本 b5162,请替换为最新版本号
wget https://github.com/ggerganov/llama.cpp/releases/download/b5162/llama-b5162-bin-ubuntu-vulkan-x64.zip
mkdir -p ~/llama_tools
unzip -j llama-b5162-bin-ubuntu-vulkan-x64.zip 'build/bin/*' -d ~/llama_tools
chmod +x ~/llama_tools/*
说明:
-j选项可将所有二进制文件直接解压到目标文件夹;确保对解压后的文件赋予可执行权限(chmod +x)。
合并模型分片
切换到工具目录:
~/llama_tools

