在线或离线llama.cpp安装和模型启动

优质文章学习记录

11 Apr 2026 — 2 min read

该版本安装时间是2025-01-10，因为不同版本可能安装上会有所不同，下面也会讲到。

先说下问题——按照官方文档找不到执行命令llama-cli或./llama-cli

先附上llama.cpp的github地址：https://github.com/ggerganov/llama.cpp，build地址：https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md。不知道你有没有出现这种情况，按照官方文档安装之后，发现根本找不到执行命令llama-cli或./llama-cli，如果没有可以跳过，如果有请按照我的以下流程安装一遍。

下载llama.cpp

我这里使用的是git命令下载：

git clone https://github.com/ggerganov/llama.cpp

如果需要在内网服务器中安装，可以下载llama.cpp的源码文件或二进制文件，下载地址：https://github.com/ggerganov/llama.cpp/releases

在这里插入图片描述

编译

下面进入编译阶段，服务器使用的是nvidia-A10的gpu，编译使用的cuda编译版本。
如果是内网安装，需要先将安装包拷贝进来，然后解压：tar -xzvf ****.tar.gz

cd llama.cpp cmake -B build -DGGML_CUDA=ON # 启动cuda加速 cmake --build build --config Release

启动模型

其实到这里llama.cpp已经编译安装好了，但是你如果看官方文档，你会发现你找不到执行命令llama-cli或./llama-cli，其实如果你想直接使用llama-cli命令，你需要配置环境变量，如果你想使用./llama-cli，你需要进入build/bin目录执行。

cd llama.cpp/build/bin

启动模型

./llama-cli -m /mnt/workspace/models/qwen2.5-7b-instruct-q4_k_m.gguf -co-cnv-p"你是一个好的助手"-fa-ngl80-n512

Read more

大模型基于llama.cpp量化详解

大模型基于llama.cpp量化详解

概述 llama.cpp 是一个高性能的 LLM 推理库，支持在各种硬件（包括 CPU 和 GPU）上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式，并进行不同程度的量化。 GGUF 格式：GGUF（Georgi Gerganov Universal Format）是 llama.cpp 专门设计的模型文件格式，针对快速加载和保存模型进行了优化，支持单文件部署，包含加载模型所需的所有信息，无需依赖外部文件。 1.安装cmake CMake 是跨平台的构建工具，用于编译 llama.cpp 项目。下载地址：https://cmake.org/download/ 安装建议：

如何快速实现语音转文字：面向普通用户的whisper.cpp完整指南

如何快速实现语音转文字：面向普通用户的whisper.cpp完整指南【免费下载链接】whisper.cppOpenAI 的 Whisper 模型在 C/C++ 中的移植版本。项目地址: https://gitcode.com/GitHub_Trending/wh/whisper.cpp 你是否曾为语音转文字的繁琐过程感到困扰？是否想要在本地设备上快速处理音频文件而无需依赖云端服务？作为OpenAI Whisper模型的C/C++高效移植版本，whisper.cpp让普通用户也能轻松实现高质量的语音识别功能。本文将为你提供从安装配置到实际使用的完整解决方案，让你在几分钟内就能开始使用这个强大的语音转文字工具。阅读本文后，你将掌握： * whisper.cpp的核心优势与适用场景 * 多平台安装配置的详细步骤 * 基础语音识别功能的使用方法 * 常见问题的快速解决方案为什么选择whisper.cpp进行语音转文字？轻量级设计，高性能表现 whisper.cpp最大的优势在于其轻量级的设计，它能够在各种硬件设备上流畅运行，从高端服务器到普通笔记本电脑，甚至是

【AIGC实战】蓝耘元生代部署通义万相2.1文生视频，up主亲测好用~

【AIGC实战】蓝耘元生代部署通义万相2.1文生视频，up主亲测好用~

文章目录 * 👏什么是文生视频？ * 👏通义万相2.1文生视频 * 👏开源仓库代码 * 👏蓝耘元生代部署通义万相2.1文生视频 * 👏平台注册 * 👏部署通义万相2.1文生视频 * 👏使用通义万相2.1文生视频 * 👏总结 👏什么是文生视频？文生视频（Text-to-Video）是利用人工智能技术，通过文本描述生成视频内容的一种创新技术。类似于图像生成技术，文生视频允许用户通过输入简单的文本描述，AI模型会自动将其转化为动态视频。这种技术广泛应用于创作、广告、教育等领域，为内容创作者提供了新的创作方式和灵感。 👏通义万相2.1文生视频 IT之家 1 月 10 日消息，阿里旗下通义万相宣布推出 2.1 版本模型升级，视频生成、图像生成两大能力均有显著提升。在视频生成方面，通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力，支持无限长 1080P 视频的高效编解码，

第二章-AIGC入门-AIGC工具全解析：技术控的效率神器，DeepSeek国产大模型的骄傲（8/36）

第二章-AIGC入门-AIGC工具全解析：技术控的效率神器，DeepSeek国产大模型的骄傲（8/36）

一、引言：AIGC 时代的浪潮在数字化时代的浪潮中，人工智能生成内容（AIGC）技术正以迅猛之势席卷而来，深刻地改变着我们的生活和工作方式。从日常的社交媒体互动，到专业的内容创作、设计、教育、医疗等领域，AIGC 工具无处不在，展现出强大的影响力和无限的潜力。 AIGC 技术的核心在于利用人工智能算法，通过对海量数据的学习和分析，自动生成各种形式的内容，包括文本、图像、音频、视频等。这一技术的突破，打破了传统内容创作的边界，使得内容生产变得更加高效、智能和多样化。无论是创作一篇新闻报道、设计一幅精美的海报，还是制作一段引人入胜的视频，AIGC 工具都能提供有力的支持，帮助创作者节省时间和精力，激发更多的创意灵感。如今，AIGC 工具已经广泛应用于各个行业。在新闻媒体领域，自动化新闻写作工具能够快速生成体育赛事、财经新闻等报道，大大提高了新闻的时效性；在广告营销行业，AIGC 可以根据产品特点和目标受众，生成极具吸引力的广告文案和创意设计，提升营销效果；在影视游戏制作中，AIGC