
Llama-2-7B 在昇腾 NPU 上的性能测评与部署建议
Llama-2-7B 模型在昇腾 NPU 环境下完成全流程部署,实测单请求吞吐量稳定在 15.6-17.6 tokens/秒,batch=4 时总吞吐量达 63.33 tokens/秒。16GB 显存即可支撑高并发,长文本推理无明显性能衰减。通过算子融合与显存池优化,批量推理线性增长特性显著,适合国产化大模型落地场景。
博客作者
Hadoop生态玩家
324
已发布文章
9.7K
博客获赞
671K
博客浏览
第 9 页

Llama-2-7B 模型在昇腾 NPU 环境下完成全流程部署,实测单请求吞吐量稳定在 15.6-17.6 tokens/秒,batch=4 时总吞吐量达 63.33 tokens/秒。16GB 显存即可支撑高并发,长文本推理无明显性能衰减。通过算子融合与显存池优化,批量推理线性增长特性显著,适合国产化大模型落地场景。

解决了 ESP-IDF 在 Windows 上安装时卡在子模块更新的问题。原因是 Espressif 自带的 idf-git 工具包中的 sed 命令在 Windows 10 下调用出错。解决方案是将 ESP-IDF 目录下的 idf-git 替换为系统已安装的 Git(通过符号链接 mklink)。步骤包括确认路径、备份原文件、创建符号链接并验证版本,最后…
Pencil Project 是一款开源 UI 原型设计工具,支持跨平台使用。涵盖环境搭建、界面导航、组件库应用、样式编辑及页面管理等内容。通过组合复用和自定义组件可提升效率,支持导出 HTML、PNG、PDF 等多种格式。适合低保真原型迭代、跨平台设计及教育演示场景。

OpenClaw 技能精选仓库 awesome-openclaw-skills 为本地 AI 助手提供经过筛选的数千个技能。内容涵盖技能定义、安装方式(CLI、手动、链接)、分类全景及 Coding 等代表性类型。强调安全合规,建议企业建立白名单机制。通过 ClawHub CLI 可一键安装,支持工作区隔离。该列表解决技能过载问题,过滤垃圾与恶意项,但不做安…
使用 Python 爬取京东商品评论的方法。通过模拟浏览器请求接口获取 JSON 数据,解析后保存为 CSV 文件。代码包含异常处理、随机延时防封 IP 等机制,适用于学习和个人数据分析,需注意控制频率避免违规。
在 Windows 环境下运行 Stable Diffusion WebUI 时,因系统代理设置导致 Python 请求库获取非预期 HTML 数据而非 JSON 数据,从而引发 JSONDecodeError 的问题。文章解释了底层原理,即代理拦截导致的协议错配,并指出典型症状包括浏览器端红色报错框、插件功能失效等。

利用 OpenClaw 工具结合飞书开放平台,快速部署一个本地运行的 AI 聊天机器人。主要步骤包括配置 Node.js 环境、安装 OpenClaw 并设置大模型 API、在飞书创建企业自建应用获取凭证、通过命令行连接两者并完成用户授权配对。最终实现在飞书内直接对话 AI 的功能,支持私有化部署与自定义模型接入。
探讨使用 Llama-Factory 框架进行大模型微调,以实现企业会议纪要的自动生成。通过整合语音转写(ASR)与大语言模型,解决通用模型不懂行业术语、输出格式不统一的问题。文章介绍了 Llama-Factory 的集成化优势,如支持 QLoRA 量化微调降低显存需求,以及构建从音频输入到结构化摘要的端到端流程。同时强调了数据质量、渐进式微调策略及隐私安全…

介绍如何将本地代码上传至 Gitee 仓库,涵盖 Git 及图形化工具安装、仓库创建与克隆、代码提交流程(add/commit/push)及常见问题处理。适用于 IDEA、VSCode 等开发环境,帮助开发者规范版本管理操作。
VS Code 终端未使用指定 Python 解释器且选择命令报错,经检查插件与环境均正常,最终确认为工作区处于受限模式。解决方法是在状态栏点击受限提示,将当前文件夹添加至信任列表,解除限制后即可正常切换解释器。

RAGFlow 是一款基于深度文档理解的开源检索增强生成(RAG)引擎,能够智能解析文档并辅助问答。针对企业私有化大模型落地中存在的回答发散、幻觉及检索结果不精准等问题,RAGFlow 提供了解决方案。文章介绍了 RAGFlow 的定义、核心特点、优势及应用场景,并提及了与其他同类产品的对比及基于 Docker 的搭建使用流程。
MIT 电机模式(Mixed Integrated Torque)是一种混合控制模式,在同一帧 CAN 数据中同时包含位置、速度、扭矩指令。驱动器内部将位置环、速度环与前馈扭矩相加生成参考电流,由电流环执行精准输出。常见应用场景包括匀速转动、纯扭矩输出、点到点定位及阻抗控制。调试时需关注 kp/kd 参数设置以避免振荡,注意前馈扭矩补偿负载,并监测电流防止过…

adbc-driver-manager 是 ADBC 标准的 Python 实现,旨在统一不同数据库的连接和操作接口。它支持跨数据库标准化连接,利用 Arrow 数据格式提升传输效率,兼容 PostgreSQL、MySQL 等多种驱动,并支持批量读写与参数化查询。使用前需安装管理器及对应数据库驱动,通过 pip 进行基础安装。
操作系统中进程的概念及多进程的必要性,特别是针对 CPU 密集型任务和 Python GIL 限制。通过 multiprocessing 模块创建进程对象,指定目标函数并启动。演示了如何获取主进程和子进程的 PID 以进行进程管理,包括 os.getpid 和 os.getppid 的使用,以及在 Windows 下需配合 if __name__ == "_…

在 Ubuntu22.04 系统上部署 Openclaw AI Agent 的详细步骤。内容包括系统安装、网络源配置、SSH 服务开启、API Key 获取、Openclaw 安装脚本执行及交互式配置。针对安装过程中常见的 Gateway 服务未安装、RPC 探针失败及 Token 不匹配等问题提供了具体的修复方案。最后展示了模型配置、Web 界面交互及 S…
无人机航测正射影像制作涉及软件安装、硬件配置及飞行规划等关键环节。梳理了 ContextCapture 与 Pix4D 两大主流工具的核心工作流程,重点解析了航高计算公式、像控点布设原则及坐标系选择策略。通过优化硬件配置与规范操作流程,可有效提升正射影像的精度与生产效率,为测绘新手提供实用的避坑指南。

Mars-Admin 是一套基于 Spring Boot 3、Vue 3 和 UniApp 构建的现代化企业管理平台。系统采用前后端分离架构,提供完整的权限管理、用户管理、SQL 监控及分布式任务调度功能。支持 Web 管理端、移动端小程序及静态页面三端统一,具备 Sa-Token 认证、RBAC 模型及多端部署能力。文档包含环境要求、启动步骤、开发指南及常…
OpenClaw 是一款基于 Node.js 的智能体开发框架,支持通过插件扩展多平台能力。本文详细记录了将 OpenClaw 接入飞书机器人的完整流程,涵盖环境搭建、API 密钥配置及插件安装步骤。重点说明了本地部署对算力的要求,以及如何在飞书开放平台完成应用创建与长连接回调设置。通过配置网关与权限策略,可实现飞书会话与 AI 模型的无缝对接,适用于构建自…

详细讲解了 C++ string 类的核心成员函数与全局函数。内容包括 c_str 与 data 的转换差异,copy 与 substr 的截取对比,以及 find 系列函数的查找逻辑(包括正向、反向及字符集合匹配)。此外还介绍了 operator+ 拼接与 getline 输入读取的注意事项,通过代码示例展示了实际应用场景与常见避坑点。

二叉树深度计算与先序排列重构涉及递归核心思想。前者通过 DFS 遍历左右子树取最大高度加一,后者利用后序序列确定根节点,结合中序序列划分左右子树范围,递归输出先序结果。掌握此类递归分割逻辑是解决树形结构问题的关键。