
基于魔搭平台与 LLaMA Factory 的大模型微调全流程实操
大模型微调概念及预训练、微调、RLHF 三阶段区别。通过魔搭平台免费 GPU 实例搭建环境,使用 LLaMA Factory 工具进行模型下载、数据准备、WebUI 训练配置。涵盖损失值监控、本地测试验证、GGUF 格式导出及 Jan.ai/Ollama 本地部署流程,提供从零到应用的全套实操步骤。
博客作者
程序员问答达人
334
已发布文章
13K
博客获赞
444K
博客浏览
第 4 页

大模型微调概念及预训练、微调、RLHF 三阶段区别。通过魔搭平台免费 GPU 实例搭建环境,使用 LLaMA Factory 工具进行模型下载、数据准备、WebUI 训练配置。涵盖损失值监控、本地测试验证、GGUF 格式导出及 Jan.ai/Ollama 本地部署流程,提供从零到应用的全套实操步骤。

在 Windows 操作系统中安装 Neo4j 图数据库的完整流程。首先根据 Neo4j 版本要求选择合适的 JDK 版本(例如 Neo4j 4.x 需 JDK 11),完成 JDK 的下载、解压及系统环境变量配置。接着下载并解压 Neo4j 安装包,同样配置环境变量以便在命令行调用。通过控制台模式或后台服务模式启动 Neo4j 服务,验证启动状态后,通过浏…

汇总了 2026 年 3 月 31 日的 AI 行业动态。万象有声平台开启公测,提供 AIGC 有声内容生产系统。xAI 公司联合创始人 Tony Wu 离职,Grok-3 研发进入攻坚期。微软开源 VibeVoice 语音模型家族,支持本地化部署。百度贴吧上线纯 AI 自治社区抓虾吧。Runway 发布 Multi-Shot App,实现文本到电影质感短片…

使用 LLaMA-Factory 框架微调 Qwen3-4B-Instruct-2507 模型的完整流程。内容包括环境安装、数据集制作与格式要求、通过 ModelScope 下载模型、使用命令行进行 LoRA 微调训练及参数配置、模型导出方法。最后提供了基于 Python 脚本的模型评估方案,包括准确率、召回率、F1 分数等指标计算,以及针对有害内容检测的…
详细讲解了在 Ubuntu 22.04 环境下部署 Gemini QQ 机器人的步骤。包括 Docker 与 Python 环境准备、NapCat 协议端容器化部署、NoneBot2 核心代码编写(含打卡与记忆功能)以及 Systemd 服务管理。最终实现机器人自动回复、群聊互动及打卡统计功能。

腾讯推出 QClaw AI Agent 工具,支持通过微信指令操控 macOS 电脑执行任务。相比开源框架 OpenClaw,QClaw 面向普通用户,无需开发即可使用微信作为控制台。目前处于内测阶段,仅支持 macOS,需申请体验。标志着 AI 从聊天工具向执行工具进化。

介绍 FPGA 基本概念及与单片机的区别,指导 Vivado 开发环境搭建与工程创建。涵盖 Verilog 核心语法速成,提供 LED 流水灯的代码实现、Modelsim 仿真测试及上板验证流程。最后总结数字电路基础学习路线、进阶方向及新手常见错误点,如阻塞与非阻塞赋值、时钟域处理等,帮助初学者快速入门硬件编程。
GitHub Copilot 的配置最佳实践,涵盖从安装初始化到核心功能调优的全过程。内容包括环境依赖检查、编辑器集成(VS Code/JetBrains)、身份认证配置、代码补全模式设置、上下文感知范围调整以及隐私控制策略。此外,还探讨了自定义 Snippet 和本地模型偏好设置,帮助开发者提升编码效率并确保数据安全。文章提供了具体的配置示例和常见问题排查…
libwebkit2gtk-4.1-0 在安装和使用中遇到的常见问题,特别是 GUI 环境下的依赖冲突。文章指出该库不仅是一个运行时库,还强依赖于图形界面环境,即使在无头模式下也会尝试连接显示服务器。主要依赖包括 GTK+ 3.24+ 用于显示上下文和样式,以及 GLib 主循环用于事件处理。解决此类问题需要理解底层 GUI 栈的耦合关系,而不仅仅是修复包依…
介绍 Phi-3-Vision-128K-Instruct 多模态模型的开源镜像部署方案,重点说明在国产昇腾和寒武纪平台的适配步骤。内容涵盖环境准备、服务启动验证、通过 Chainlit 前端或 REST API 调用模型的方法,以及图片识别和多轮对话示例。此外还包含常见问题排查建议,如端口冲突、内存不足等,旨在帮助用户在资源受限环境下实现高效的多模态推理应…
介绍 OpenClaw 开源 AI 智能体框架的安装与飞书机器人接入流程。涵盖阿里云服务器及本地 Windows 两种部署方案,包括环境准备、Node.js 依赖安装、Docker 或脚本一键部署。详细说明了如何配置阿里云百炼大模型 API Key,以及在飞书开放平台创建应用、配置事件订阅和权限。最后提供验证步骤与常见问题排查指南,帮助用户快速搭建 24 小…
在资源受限的边缘计算设备上部署轻量级 TensorFlow 模型的全流程。重点阐述了 TensorFlow Lite 的转换、量化及推理优化策略,对比了 Python 与 C++ 实现差异。结合工业视觉缺陷检测场景,分析了内存管理、温控及数据同步等工程挑战,并提供了具体的代码示例与架构建议,旨在帮助开发者在低成本硬件上实现高效稳定的 AI 落地。

介绍阿里通义万相 2.1 文生视频模型,该版本在时空上下文建模及中文文字生成方面表现优异。文章提供了开源仓库地址供开发者下载体验,并对比了 RTX3090 与 RTX4090 显卡的部署性能差异,建议优先使用高算力显卡进行创作。

DreamZero 是由 NVIDIA 提出的机器人基础模型,采用 World Action Model (WAM) 架构,基于 14B 参数视频扩散模型 Wan2.1,通过联合预测未来视频帧和机器人动作,使机器人具备类似人类的视觉规划能力。该方法解决了现有视觉语言动作模型(VLAs)缺乏物理世界动态理解及泛化能力差的问题。实验显示,DreamZero 在…

Qwen-Image-Edit-2511 是通义千问推出的图像编辑模型,支持复杂指令下的图片理解与编辑。文章介绍了三种使用方式:官方在线体验、第三方平台工作流及本地部署。通过季节转换、跨次元合成、材质替换、风格迁移、物理模拟及老照片修复等七个案例,展示了模型在光影协调、几何推理、细节增强等方面的能力。建议用户在提示词中具体描述环境、光影与材质,利用保持与改变…
介绍如何使用 Anthropic 官方推出的 frontend-design Skill 提升大模型生成的前端页面设计质量。针对 AI 生成界面同质化严重的问题,该 Skill 通过定义字体、配色、动效、布局及细节五大原则,引导 AI 产出更具个性和设计感的代码。文章提供了命令行安装、手动下载等多种部署方式,并分析了适用场景如官网、营销页等。核心在于为 AI…

介绍 OpenClaw 框架中的自动化与记忆体系。通过心跳机制(Heartbeat)实现定时巡检,利用 Cron 任务在精确时间点执行操作,并构建三层记忆系统(每日笔记、长期记忆、灵魂记忆)让助手越用越懂用户。文章提供了配置示例、实战场景及边界设计原则,帮助开发者将被动工具升级为主动数字管家。

系统介绍了 Coze 智能体工作流的核心节点使用方法。涵盖业务逻辑节点(选择器、意图识别、循环、批处理等)、数据库与知识库操作节点,以及图像和音视频处理节点。重点讲解了代码节点中 Python 异步编程的应用及 JSON 数据处理。最后说明了工作流的发布流程。旨在帮助开发者构建高效、可落地的智能体应用。

介绍如何在 Flutter for OpenHarmony 项目中集成 dart_openai 三方库,实现与大语言模型(如 GPT-4、ChatGPT)的交互。内容包括依赖配置、API Key 设置、国内代理适配、流式聊天实现以及分布式办公和情感健康教练等实战场景。同时提供了网络稳定性、隐私合规及 UI 性能优化的建议,并给出了完整的问答器示例代码,帮助开…

大语言模型中的 Token 概念,包括分词器原理、不同语言的 Token 差异及计数方法。详细阐述了上下文窗口的定义、限制及'中间遗失'现象,提出了压缩上下文(Compaction)策略以优化长期对话成本。此外,还讲解了提示词缓存(Prompt Caching)机制以降低重复计算开销。通过 Python 示例展示了如何使用 tiktoken 进行 Token…