边缘计算场景：将Llama Factory微调模型部署到Jetson设备

优质文章学习记录

06 Apr 2026 — 5 min read

边缘计算场景：将Llama Factory微调模型部署到Jetson设备

在AI模型应用落地的过程中，许多IoT公司面临一个共同挑战：如何在边缘设备上高效运行经过微调的大语言模型？本文将详细介绍如何通过LLaMA-Factory框架完成模型微调，并将其部署到Jetson系列边缘设备，同时提供TensorRT转换和性能优化的完整解决方案。

为什么需要边缘部署微调模型？

随着大语言模型在IoT场景的应用深入，直接在云端运行模型面临三个核心问题：

延迟敏感：工业控制、实时监控等场景要求毫秒级响应
数据隐私：敏感数据不希望离开本地设备
成本压力：长期使用云端GPU会产生高昂费用

Jetson设备作为边缘计算的代表硬件，具备以下优势：

内置GPU加速核心
支持TensorRT推理优化
功耗低至5-15W
提供完整的AI开发生态

云GPU环境下的模型微调

在将模型部署到边缘设备前，我们需要先在云GPU环境完成模型微调。LLaMA-Factory是目前最受欢迎的开源微调框架之一，支持多种微调方法和模型架构。

微调方法选择

根据显存限制和任务需求，常见微调方法包括：

全参数微调（Full Fine-tuning）
修改模型所有权重
效果最好但显存需求最高
7B模型约需80G显存
LoRA（Low-Rank Adaptation）
仅训练低秩矩阵
显存需求降低50-70%
适合资源受限场景
QLoRA（Quantized LoRA）
结合4-bit量化和LoRA
7B模型仅需12G显存
精度损失可控

微调配置示例

以下是一个典型的LoRA微调配置（以Qwen-7B为例）：

python src/train_bash.py \ --model_name_or_path Qwen/Qwen-7B \ --stage sft \ --do_train \ --dataset your_dataset \ --template qwen \ --finetuning_type lora \ --lora_rank 8 \ --output_dir outputs \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 4 \ --lr_scheduler_type cosine \ --logging_steps 10 \ --save_steps 1000 \ --learning_rate 5e-5 \ --num_train_epochs 3.0 \ --fp16

提示：实际使用时需要根据显存大小调整batch_size和gradient_accumulation_steps参数

模型转换与优化

微调完成后，我们需要将模型转换为适合Jetson设备运行的格式。主要步骤包括：

1. 模型导出

使用LLaMA-Factory提供的导出工具将微调后的模型转换为HuggingFace标准格式：

python src/export_model.py \ --model_name_or_path outputs/checkpoint-final \ --template qwen \ --finetuning_type lora \ --export_dir exported_model

2. ONNX转换

将模型转换为ONNX格式以便后续优化：

from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("exported_model") onnx_path = "model.onnx" input_names = ["input_ids", "attention_mask"] output_names = ["logits"] torch.onnx.export( model, (dummy_input,), onnx_path, input_names=input_names, output_names=output_names, dynamic_axes={ "input_ids": {0: "batch", 1: "sequence"}, "attention_mask": {0: "batch", 1: "sequence"}, "logits": {0: "batch", 1: "sequence"} }, opset_version=13 )

3. TensorRT优化

在Jetson设备上使用TensorRT进行最终优化：

/usr/src/tensorrt/bin/trtexec \ --onnx=model.onnx \ --saveEngine=model.plan \ --fp16 \ --workspace=2048 \ --minShapes=input_ids:1x1,attention_mask:1x1 \ --optShapes=input_ids:1x256,attention_mask:1x256 \ --maxShapes=input_ids:1x512,attention_mask:1x512

注意：Jetson设备内存有限，需要合理设置workspace大小

Jetson设备部署实战

环境准备

确保Jetson设备已安装以下组件：

JetPack SDK（建议5.1.2以上）
TensorRT 8.6+
CUDA 11.4+
cuDNN 8.9+
Python 3.8+

部署流程

传输模型文件

将优化后的模型文件（.plan）复制到Jetson设备：

scp model.plan jetson@<ip>:/home/jetson/models/

安装运行时依赖

sudo apt-get install python3-pip pip3 install transformers==4.36.0 tensorrt==8.6.1

创建推理服务

编写简单的Flask API服务：

from flask import Flask, request import tensorrt as trt import pycuda.driver as cuda import pycuda.autoinit import numpy as np app = Flask(__name__) # 加载TensorRT引擎 logger = trt.Logger(trt.Logger.WARNING) runtime = trt.Runtime(logger) with open("model.plan", "rb") as f: engine = runtime.deserialize_cuda_engine(f.read()) @app.route('/predict', methods=['POST']) def predict(): inputs = request.json['inputs'] # 预处理和推理逻辑 # ... return {'result': outputs} if __name__ == '__main__': app.run(host='0.0.0.0', port=5000)

性能优化建议

在边缘设备上运行大模型需要特别注意性能优化：

内存优化

量化压缩：使用FP16或INT8量化减少模型大小
内存映射：将模型参数映射到内存而非全部加载
分块加载：按需加载模型部分参数

计算优化

算子融合：利用TensorRT的自动融合功能
批处理：合理设置最大批处理大小
流水线：重叠计算和数据传输

典型配置参数

| 参数 | 推荐值 | 说明 | |------|--------|------| | 精度 | FP16 | 平衡精度和性能 | | 最大序列长度 | 512 | 根据应用场景调整 | | 批处理大小 | 1-4 | 取决于显存大小 | | 工作空间 | 1024MB | 避免OOM错误 |

常见问题排查

在实际部署过程中可能会遇到以下问题：

显存不足错误
降低批处理大小
减少最大序列长度
使用更轻量的微调方法（如QLoRA）
推理速度慢
检查是否启用了TensorRT加速
确保使用JetPack提供的CUDA/cuDNN
禁用不必要的日志输出
精度下降明显
检查量化配置
验证ONNX转换过程无警告
对比原始模型和转换后模型的输出

总结与下一步

通过本文介绍的方法，IoT公司可以完整实现从云GPU训练到边缘部署的端到端流程。实际部署时建议：

先在开发环境验证所有步骤
逐步调整性能参数找到最佳平衡点
监控边缘设备的资源使用情况

对于希望进一步优化的开发者，可以探索：

自定义TensorRT插件实现特殊算子
结合Docker容器化部署
实现动态批处理提升吞吐量

现在就可以尝试在Jetson设备上部署你的第一个微调模型，体验边缘AI的强大能力！

GHCTF2025-WEB题解：如何用SSTI绕过WAF黑名单（附实战payload）

从GHCTF2025实战出发：深度拆解SSTI黑名单绕过策略与高阶Payload构造最近在GHCTF2025的WEB赛道上，一道看似简单的文件上传题目，却让不少选手陷入了“知道有洞，但payload总被拦截”的困境。这道题表面上是文件上传，实际上却是一场针对SSTI（服务器端模板注入）绕过能力的深度考验。我在实际测试中发现，很多选手能够快速识别出SSTI漏洞的存在，但在面对严格的黑名单过滤时，却往往束手无策，反复尝试的payload都被WAF无情拦截。这种情况在真实的渗透测试和CTF比赛中并不少见。WAF（Web应用防火墙）的过滤规则越来越智能，传统的{ {7*7}}测试虽然能确认漏洞，但真正要执行命令、读取文件时，那些包含os、flag、__builtins__等关键词的payload几乎都会被第一时间拦截。这道题的精妙之处在于，它模拟了一个相对真实的防御环境——不仅过滤常见敏感词，还对下划线这种在Python反射中至关重要的字符进行了拦截。本文将从实战角度出发，不局限于GHCTF2025这一道题目，而是系统性地探讨SSTI黑名单绕过的核心思路、技术原理和进阶技巧。我会结

前端通用 Token 全流程操作指南（常见常用版）

前端通用 Token 全流程操作指南（常见常用版）本文梳理所有前端框架通用的 Token 操作逻辑，剥离具体项目/技术栈细节，聚焦「获取→存储→使用→过期→清除」的核心生命周期，每个步骤均标注「通用场景+通用方案+注意事项」，适合所有前端开发场景，可直接作为开发速查表。前置说明：Token 的核心定位 Token 是后端签发的临时访问凭证，核心作用是： 1. 证明“当前用户是谁”（身份认证）； 2. 证明“当前用户有权限访问”（权限校验）。一、第一步：登录成功获取 Token 通用场景用户通过账号密码/验证码/第三方登录等方式，向后端发起登录请求，后端验证通过后，在响应体中返回 Token。

前端图片加载失败、 img 出现裂图的原因全解析

在前端开发过程中，我们几乎都遇到过这种情况：页面中某张图片加载不出来，显示成一个小小的“裂图”图标。这看似简单的问题，实际上可能由多种原因造成，尤其是在 HTTPS 环境下，混合内容机制（Mixed Content）是最常见、也最容易被误解的根源之一。本文将带你系统梳理裂图的各种原因、排查思路，并重点讲清楚混合内容的原理与浏览器行为。一、什么是“裂图”？ “裂图”（broken image）是指浏览器尝试加载 <img> 标签的图片资源失败时的表现形式。常见表现： * 图片区域显示为灰底、叉号、占位符； * 控制台出现 Failed to load resource 或 Mixed Content 警告； * Network 面板中图片请求状态码为 404 / 403 / blocked。二、常见的裂图原因汇总

WebRTC / HLS / HTTP-FLV 的本质区别与选型指南

在做系统级直播（而不是自己本地播放）时，很多人都会遇到一个经典问题： WebRTC、HLS、HTTP-FLV 到底有什么区别？项目中到底该选哪个？传输协议不同 → 延迟不同 → 兼容性 / 稳定性 / 成本不同在系统里选哪个，核心看两点：你要多低的延迟？你要多强的兼容和稳定？一、简介 * WebRTC：超低延迟（0.2 ~ 1s），适合实时监控、无人机、实时指挥 * HLS（hls.js）：最稳、最通用（5 ~ 15s），适合活动直播、课程、公开大并发 * HTTP-FLV（flv.js）：中低延迟（1 ~ 3s），适合想比 HLS 低延迟，但不想用 WebRTC 的场景（