MS-S1 MAX，AI MAX 395在Ubuntu24利用Vulkan版llama.cpp运行gpt-oss 120b

优质文章学习记录

08 Apr 2026 — 2 min read

1、安装amd gpu驱动和Rocm

wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb sudo apt update sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)" sudo apt install amdgpu-dkms sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,video $LOGNAME sudo apt install rocm

2、通过GTT解锁96G显存

1、进入bios->setup->advanced->NBIO common options->GFX configuration->UMA Frame buffer size改显存
2、修改grub

vim /etc/default/grub #设置保存 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0" update-grub

重启生效
参考b站大佬

3、安装vulkan

sudo apt install vulkan-tools

4、下载llama.cpp release，硬要自己编译也可以

wget https://github.com/ggml-org/llama.cpp/releases/download/b7503/llama-b7503-bin-ubuntu-vulkan-x64.tar.gz #进入目录 #去https://hf-mirror.com/ggml-org/collections中找自己想要部署的模型，里边有运行命令 ./llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 --jinja #文件下载到~/.cache/llama.cpp/目录中

5、安装amdgpu_top

sudo dpkg -i amdgpu-top_0.11.0-1_amd64.deb sudo amdgpu_top

6、最终效果

如果你的token速度只有二十几，那就是纯cpu算的没跑了

在这里插入图片描述

amdgpu_top验证

在这里插入图片描述

注意，如果你要用其他电脑访问，需要增加参数–host 0.0.0.0，具体参考文档

Read more

【AIGC】Claude Code的三大模式

Claude Code 主要有三大核心权限/执行模式（默认、自动编辑、计划），以及思考强度模式、危险模式等辅助模式。一、三大核心执行模式（权限控制）这是最常用的三种模式，控制 Claude 对文件与命令的自动化程度，可通过 Shift+Tab 循环切换。 1. 默认模式（Normal / Manual Approval） * 状态栏：? for shortcuts * 行为：每次文件编辑、命令执行前都需要你手动批准（Y/N/跳过） * 适用：学习阶段、不熟悉的项目、重要/敏感修改、需要精细控制 * 特点：最安全、掌控感最强，但效率较低 2. 自动编辑模式（Auto-Accept / Accept Edits） * 状态栏：

Copilot vs Claude Code终极对决哪个会更好用呢？

Copilot vs Claude Code终极对决哪个会更好用呢？

📊 核心差异：一句话概括 * GitHub Copilot：你的智能代码补全器 * Claude Code：你的全栈AI开发伙伴 🎯 一、产品定位对比 GitHub Copilot：专注代码补全 <TEXT> 定位：AI结对编程助手核心理念：让你写代码更快核心功能：基于上下文的代码建议和补全收费模式：个人$10/月，企业$19/用户/月 Claude Code：全栈开发加速器 <TEXT> 定位：AI驱动的开发平台核心理念：提升整个开发流程效率核心功能：代码生成+架构设计+调试+部署收费模式：按token计费，灵活弹性 ⚡ 二、核心技术对比

Lostlife2.0下载官网整合LLama-Factory引擎，增强NPC对话逻辑

Lostlife2.0整合LLama-Factory引擎，重塑NPC对话逻辑在文字冒险游戏的世界里，玩家最怕什么？不是任务太难，也不是剧情平淡——而是和一个“话术机械、反应呆板”的NPC对话时，那种瞬间出戏的割裂感。明明世界观设定是末世废土，结果NPC张口就是“绝绝子”“破防了”，这种语言风格的崩塌足以让沉浸感荡然无存。《Lostlife2.0》作为一款以深度叙事和角色互动为核心卖点的文字冒险游戏，在开发过程中就直面了这一难题。早期版本中，NPC的对话依赖传统的决策树系统：每句台词都由编剧手动编写，每个分支都需要精确配置。这不仅导致内容维护成本极高，更带来了“选项爆炸”问题——新增一条剧情线，往往要额外添加数十个节点，最终形成一张难以管理的复杂网络。真正的转机出现在团队引入 LLama-Factory 之后。这个开源的大模型微调框架，原本主要用于科研与企业级AI定制，但《Lostlife2.0》团队敏锐地意识到：它或许能成为解决NPC智能瓶颈的关键工具。通过将LLama-Factory深度集成到开发流程中，他们成功构建了一套动态、可进化、风格一致的对话生成系统，彻底改变了传

小显存福音：LLaMA Factory+QLoRA微调70B模型实测

小显存福音：LLaMA Factory+QLoRA微调70B模型实测对于许多研究者来说，想要在消费级显卡上实验大参数模型一直是个难题。常规方法往往连模型加载都做不到，更别提进行微调了。本文将介绍如何使用LLaMA Factory框架结合QLoRA技术，在有限显存条件下实现对70B大模型的微调。这类任务通常需要GPU环境，目前ZEEKLOG算力平台提供了包含该镜像的预置环境，可快速部署验证。为什么需要LLaMA Factory+QLoRA 大模型微调一直是AI研究的热点，但面临两个主要挑战： * 显存需求大：70B参数的模型在FP16精度下就需要140GB显存，远超消费级显卡容量 * 技术门槛高：需要手动实现量化、梯度检查点等优化技术 LLaMA Factory框架通过以下方式解决了这些问题： * 内置QLoRA技术：通过低秩适配器大幅减少可训练参数 * 自动优化：集成量化、梯度检查点等显存优化技术 * 开箱即用：预置多种微调方法和数据集环境准备与镜像部署在开始前，我们需要准备一个支持CUDA的GPU环境。以下是具体步骤： 1. 选择包含LLaM