本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)

本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)

Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型(MoE),支持最大 128K 上下文,激活参数规模为 32B,具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来,许多开发者希望将其部署在本地,以获得更高的私密性和灵活性。

本文将详细介绍三种主流本地部署路径,并提供完整的配置步骤和使用建议。


📦 准备工作(通用部分)

在进行部署前,请准备如下环境与资源:

✅ 最低硬件配置建议:

项目要求
存储空间≥ 250 GB(用于量化模型,若使用 FP8 请预留 1 TB)
内存≥ 128 GB RAM(越大越流畅)
GPU≥ 24 GB 显存,推荐多卡(如 2×A100、H100)
操作系统Linux(Ubuntu 推荐),或支持 CUDA 的 WSL2 环境

✅ Python 与工具环境

sudoapt update &&sudoaptinstall -y git cmake build-essential curl python3 -m pip install --upgrade pip 

✨ 方法一:使用 llama.cpp 本地部署(支持量化,低资源适配)

适合硬件资源中等,尤其是显存不足但 CPU 足够的开发者。支持 GGUF 格式的量化模型,非常适合本地离线使用。

🔧 步骤 1:获取模型(GGUF 格式)

from huggingface_hub import snapshot_download snapshot_download( repo_id="unsloth/Kimi-K2-Instruct-GGUF", local_dir="models/Kimi-K2-Instruct"

Read more

Flutter 组件 serverpod_swagger 的适配 鸿蒙Harmony 实战 - 驾驭 API 文档自动化、实现鸿蒙端全栈联调与 Swagger UI 动态审计方案

Flutter 组件 serverpod_swagger 的适配 鸿蒙Harmony 实战 - 驾驭 API 文档自动化、实现鸿蒙端全栈联调与 Swagger UI 动态审计方案

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 serverpod_swagger 的适配 鸿蒙Harmony 实战 - 驾驭 API 文档自动化、实现鸿蒙端全栈联调与 Swagger UI 动态审计方案 前言 在鸿蒙(OpenHarmony)的大型项目研发中,前端(鸿蒙应用)与后端(Dart Server)的沟通效率,往往直接决定了产品的上线节奏。传统的“手动维护 API 文档”模式,不仅耗时耗力,更由于文档与代码的脱节,导致了大量“因为 API 字段改动而引发的 Crash”。 我们需要一种“代码即文档”的高阶自动化生产力。 serverpod_swagger 是 Serverpod

By Ne0inhk
linux之perf(17)PMU事件采集脚本

linux之perf(17)PMU事件采集脚本

Linux之perf(17)PMU事件采集脚本 Author: Once Day Date: 2025年2月22日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: Perf性能分析_Once_day的博客-ZEEKLOG博客。 参考文章:Tutorial - Perf Wiki (kernel.org)perf-top(1) - Linux manual page (man7.org) 文章目录 * Linux之perf(17)PMU事件采集脚本 * 1. Perf stat介绍 * 2. 设计与实现 * 2.1 采集事件来源 * 2.2 使用CSV格式输出数据 * 2.3 Python解析数据和保存数据

By Ne0inhk
Flutter 三方库 gviz 的鸿蒙化适配指南 - 实现复杂的 Graphviz 拓扑图布局计算、支持 DOT 语言解析与自动化图谱生成

Flutter 三方库 gviz 的鸿蒙化适配指南 - 实现复杂的 Graphviz 拓扑图布局计算、支持 DOT 语言解析与自动化图谱生成

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 gviz 的鸿蒙化适配指南 - 实现复杂的 Graphviz 拓扑图布局计算、支持 DOT 语言解析与自动化图谱生成 前言 在进行 Flutter for OpenHarmony 的企业级应用开发中,特别是在处理网络拓扑、数据库 ER 图或编译器架构分析时,自动绘制复杂的图形结构是一项巨大挑战。gviz 是一个基于 Graphviz 设计思路的 Dart 库,它能将 DOT 描述语言转化为结构化的图谱对象模型。本文将指导大家如何在鸿蒙端利用该库高效构建动态拓扑。 一、原理解析 / 概念介绍 1.1 基础原理 gviz 充当了 DOT 源码与渲染引擎之间的桥梁。它解析外部输入的 DOT 文本,

By Ne0inhk