llamafile 使用指南
准备工作:认识 llamafile
llamafile 是一种革命性的 LLM 分发格式,它将模型权重、运行时和 Web 服务打包成单个可执行文件。这种技术基于 Mozilla 的 APE(Application Portable Executable)格式,实现了'一次构建,到处运行'的跨平台能力。项目核心优势包括:
- 零依赖部署:无需预装 Python、CUDA 或特定系统库
- 跨平台兼容:支持 Windows、macOS、Linux 等主流操作系统
- 数据本地处理:所有计算在本地完成,避免隐私泄露
- 体积优化:采用 GGUF 格式压缩模型,平衡性能与存储需求
步骤一:获取 llamafile 文件
llamafile 提供两种使用方式:内置模型权重的完整包或仅含运行时的轻量版。对于新手,推荐从官方示例开始:
- 下载预打包模型 访问 HuggingFace 获取 LLaVA 多模态模型(4.29GB): llava-v1.5-7b-q4.llamafile 该模型支持图像理解,可直接上传图片提问。
- 验证文件完整性 下载完成后检查文件大小是否为 4.29GB,避免因网络中断导致的文件损坏。
⚠️ 注意:Windows 系统存在 4GB 可执行文件限制,若使用超过此容量的模型(如 13B 参数版本),需采用外置权重模式。
步骤二:系统配置与权限设置
不同操作系统需要进行简单的权限配置,以确保 llamafile 能够正常执行:
Windows 系统
- 将下载的文件重命名为
llava-v1.5-7b-q4.llamafile.exe - 右键文件 → 属性 → 安全 → 编辑,确保当前用户拥有'读取和执行'权限
macOS 系统
- 打开终端,导航至下载目录:
cd ~/Downloads - 添加可执行权限:
chmod +x llava-v1.5-7b-q4.llamafile - 解决开发者验证问题: 系统设置 → 隐私与安全性 → 底部允许 "llava-v1.5-7b-q4.llamafile" 运行
Linux 系统
- 终端执行权限命令:
chmod +x llava-v1.5-7b-q4.llamafile
对于部分发行版(如 Ubuntu),可能需要安装 APE 格式支持:
sudo wget -O /usr/bin/ape https://cosmo.zip/pub/cosmos/bin/ape-$(uname -m).elf
sudo chmod +x /usr/bin/ape
sudo sh -c "echo ':APE:M::MZqFpD::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"

