llama.cpp 多环境部署指南:从 CPU 到 CUDA/Metal 推理实践
llama.cpp 在本地部署大模型的流程,涵盖环境准备、源码编译及针对不同硬件(CPU、Apple Metal、NVIDIA CUDA)的配置方法。通过清理无关推广内容并规范 Markdown 结构,提供了从基础工具链安装到特定硬件加速编译的实操步骤,帮助用户在离线环境下高效运行量化后的 LLM 模型。
博客作者
技术宅
328
已发布文章
10K
博客获赞
1.1M
博客浏览
第 4 页
llama.cpp 在本地部署大模型的流程,涵盖环境准备、源码编译及针对不同硬件(CPU、Apple Metal、NVIDIA CUDA)的配置方法。通过清理无关推广内容并规范 Markdown 结构,提供了从基础工具链安装到特定硬件加速编译的实操步骤,帮助用户在离线环境下高效运行量化后的 LLM 模型。

一款基于纯前端技术(HTML+CSS+JavaScript)实现的多进制奇偶校验检查器。工具支持二进制、八进制、十进制及十六进制的切换与校验,具备智能前缀识别、双校验类型选择及输入验证功能。核心逻辑涵盖 DOM 操作、正则表达式验证、进制转换及奇偶性计算。无需后端依赖,适合前端新手练习基础知识点。
对比了 GitHub Copilot、CodeGeex 和 RooCode 三款主流 AI 代码助手。GitHub Copilot 生态集成好、语言覆盖广但需付费且依赖网络;CodeGeex 支持本地化部署、数据合规且免费,适合国内企业及开源场景;RooCode 轻量免费、交互友好,适合新手及前端开发。用户可根据团队性质、预算及对数据安全的诉求选择合适的工具…

如何使用自定义数据集微调 Stable Diffusion 3.5 的 LoRA 文生图模型。内容包括环境依赖配置、数据集格式准备(metadata.jsonl)、预训练模型下载(Hugging Face/ModelScope)、训练命令参数详解以及推理预测步骤。通过该流程可实现特定风格或对象的图像生成,适用于艺术创作、游戏开发等场景。
Claude Code Viewer 是一个开源的 Web 端客户端,用于管理 Anthropic 的 Claude Code 会话。它解决了原生会话历史难追溯、移动端查看不便及协作共享困难等问题。核心功能包括日志实时查看、全局搜索、新会话发起、继续会话机制、项目管理、文件上传预览、浏览器嵌入、定时任务发送、Git 集成及多语言支持。支持通过 npm 或 D…

介绍开源项目 OpenClaw 与阿里 Qwen3.5 模型的组合应用。OpenClaw 作为 AI Agent 网关,支持多平台接入、持久化记忆及主动执行能力。Qwen3.5 提供高性能推理支持。文章详细阐述了零代码办公、私有知识库、智能运维三大场景,并提供了基于 Windows WSL2 环境的完整部署步骤,涵盖 vLLM 模型服务配置、OpenClaw…

分享了基于 LLaMA-7B 模型进行 LoRA 微调的完整流程。内容包括模型选型、云环境实例创建、代码实现及训练验证。通过合理配置资源与参数,实现了高效的模型定制与推理部署,为开发者提供了低门槛的大模型实践参考。
利用 RetinaFace 和 CurricularFace 模型构建人脸识别安全审计测试环境的方案。内容包括环境准备、模型部署、人脸检测与特征提取的基础操作,以及相似人脸混淆、遮挡攻击、对抗样本生成等典型安全测试场景。通过标准化流程与代码示例,帮助安全工程师评估系统脆弱性并优化防御策略。

Turnitin 系统在学术诚信审查中的双重检测机制,包括文本重复率与 AI 生成痕迹识别。介绍了基于学术大模型的深度改写系统技术原理,涵盖模型训练、人类写作逻辑模拟及规避检测特征的方法。讨论了专业语料库、算法适配、人工服务及计费模式等关键考量因素,并列举了辅助写作优化、高引用处理及理工科术语处理等典型应用场景。强调技术应用应服务于学术创新,维护学术诚信底线…
前端开发中手动编写组件的弊端,如样式不统一、维护困难及效率低下。通过对比 Ant Design、Material UI 以及 Tailwind CSS + Shadcn UI 三种主流组件库的使用方式,展示了如何快速构建统一的 UI 界面。文章结论是应优先选用成熟的组件库以避免重复造轮子,从而提升开发效率和代码质量。
无人机避障算法的核心技术,涵盖系统组成、常见算法对比及深度学习应用。详细阐述了基于传感器融合(激光雷达、视觉)的感知设计,视觉 SLAM 在实时避障中的应用,以及动态窗口法(DWA)、人工势场法和深度强化学习的具体实现。此外,还讨论了嵌入式部署优化、多传感器时间同步标定及参数整定方法,为复杂环境下的安全飞行提供工程化方案。

评测了地瓜机器人 RDK-S100 开发板。硬件方面,S100 芯片集成六核 A78AE、四核 R52 及 Mali-G78AE GPU,提供 80/128TOPS 算力,配备 12GB LPDDR5 及丰富接口。软件方面,支持 Ubuntu 系统,需 NDA 获取源码,个人可下载镜像。AI 测试显示,通过 Python 调用 BPU 运行 YOLOv5x…
国产 17B 文生图模型 HiDream-I1 正式开源,采用稀疏扩散 Transformer 架构和混合专家系统。支持 FP8/GGUF 量化,最低 8GB 显存运行。提供极速(16 步)、平衡(28 步)、专业(50 步)三个版本,适配不同显存配置。集成多模态文本编码器,提升中文理解能力。适用于电商、游戏美术等场景。
如何在 VSCode 中安装 Continue 开源 AI 编程助手插件,并通过配置硅基流动(SiliconFlow)提供的 Qwen 2.5 Coder 32b 免费模型来实现自动编程功能。步骤包括在扩展市场搜索安装插件,在配置向导中选择 Provider 和 Model,获取 API Key 后完成设置,即可在对话框中输入指令进行代码生成与解释。

三种 Web 版即时通讯(IM)聊天信息的加密算法实现方案。方案一为静态非对称加密,适合学习但性能差且无前向保密性;方案二增加了数字签名以验证身份和完整性,但性能进一步下降;方案三采用混合加密系统,结合对称与非对称加密优势,提供高性能和前向保密性,是推荐的生产环境方案。文章详细阐述了各方案的前端 Vue 与后端 Java 实现流程,包括密钥管理、会话协商及安…

VS Code 远程连接服务器后 GitHub Copilot 无法使用的解决方法。问题源于扩展运行位置配置,需将 GitHub.copilot 和 GitHub.copilot-chat 的 remote.extensionKind 设置为 ui,使其在本地客户端运行而非远程服务器。
本期 AI 热点聚焦芯片竞争、智能体发展与安全问题。Nvidia 计划投入 260 亿美元开发开源模型并推出 Agent 平台,Meta 发布多款新芯片。Google Gemini 集成至 Chrome 和 Maps,Alexa 新增个性风格。Anthropic 起诉美国国防部引发供应链争议,青少年滥用 AI 诽谤老师现象受关注。技术前沿涵盖多模态推理、长上…
详细解析了 Llama Factory 框架支持的 Alpaca 与 ShareGPT 数据格式。涵盖了指令监督微调与多轮对话格式的字段差异、加载方式及转换方法。文章提供了格式对比测试步骤、微调效果优化技巧以及常见问题排查方案,帮助开发者高效完成大模型微调任务。

介绍基于C# WPF和SignalR构建的工业监控系统架构,实现多西门子PLC并行采集及Web端实时可视化展示。系统包含设备层、采集层、通信层及可视化层,支持断线重连与数据缓存。

深入解析 Flutter TabBar 系统架构,涵盖固定、滚动、图标及自定义指示器等基础与高级导航实现。通过 TabController 控制状态,结合动画与分段组件优化交互体验。提供完整示例代码及性能优化建议,适用于 OpenHarmony 等跨平台开发场景。