基于 Transformers.js 实现前端图片对象检测 | 极客日志

JavaScriptAI大前端算法

基于 Transformers.js 实现前端图片对象检测

如何利用 Transformers.js 库在前端浏览器中实现图片对象检测功能。通过导入 Xenova/detr-resnet-50 模型，用户可以上传本地图片，在客户端完成推理并渲染检测框。文章涵盖了从环境准备、代码实现到性能优化的完整流程，重点解决了模型加载、坐标计算及错误处理等关键问题，展示了边缘 AI 在 Web 开发中的应用潜力。

魔法巫师发布于 2025/2/6更新于 2026/7/2743 浏览

前言

在当今的技术环境中，人工智能（AI）与前端开发的融合越来越普遍。其中一个显著的应用是在图像识别中，AI 算法可以检测和标记图像中的对象，增强用户体验，并在网站或应用程序上实现创新功能。传统的图像识别通常依赖后端服务器进行计算，但这会带来延迟和带宽压力。随着 WebAssembly 和 ONNX Runtime 的发展，现在可以在浏览器端直接运行 AI 模型。

本文将详细介绍如何使用 @xenova/transformers 库在前端实现图片对象检测功能。通过这一方案，用户上传图片后，模型将在本地浏览器中完成推理，无需将图片上传至服务器，从而保护隐私并降低服务器成本。

先决条件

在继续之前，请确保您对 HTML、CSS 和 JavaScript 有基本的了解。另外，熟悉与 AI 和图像处理相关的概念将会有所帮助。您需要一个现代浏览器环境（推荐 Chrome、Edge 或 Firefox），因为这些浏览器对 WebAssembly 的支持最为完善。

技术原理

本方案核心依赖于 Hugging Face 推出的 Transformers.js 库。这是一个允许在浏览器中运行机器学习模型的 JavaScript 库。它支持多种任务，包括自然语言处理、图像分类、目标检测等。

ONNX Runtime: 模型通常被转换为 ONNX (Open Neural Network Exchange) 格式，这是一种开放的模型交换格式，便于在不同框架间迁移。
WebAssembly: 为了获得接近原生的性能，模型推理部分通过 WebAssembly 执行，这使得 JavaScript 能够调用高性能的 C++ 代码。
Transformer 模型: 我们使用的是 DETR (Detection Transformer) 模型，具体版本为 Xenova/detr-resnet-50。该模型擅长识别图像中的物体及其位置。

实现步骤详解

Step 1：导入必要的模块

首先，我们需要从 CDN 引入 transformers 库。使用 ES Module 语法可以直接在浏览器中运行。

import { pipeline, env } from "https://cdn.jsdelivr.net/npm/@xenova/[email protected]"
// 设置环境变量，禁止加载本地模型，强制使用 CDN 资源
env.allowLocalModels = false;

此代码从 CDN 中导入必要的模块。pipeline 用于初始化模型，env 用于配置运行时行为。
env.allowLocalModels = false; 将环境变量设置为 false，表示不允许使用本地文件系统中的模型，这有助于确保模型版本的统一性和安全性。

Step 2：HTML 结构与事件监听

我们需要创建一个文件上传输入框和一个容器来显示图片和检测结果。

<input type="file" accept="image/*" id="file-upload">
<div id="image-container">

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online

const fileUpload = document.getElementById('file-upload');
const imageContainer = document.getElementById('image-container');
const status = document.getElementById('status');

fileUpload.addEventListener('change', function (e) {
    // 当选择文件时触发的事件监听器
});

const reader = new FileReader();
reader.onload = function (e2) {
    // 文件读取完成时执行的函数
};
reader.readAsDataURL(file);

const image = document.createElement('img');
image.src = e2.target.result;
imageContainer.appendChild(image);

await detect(image);

const detector = await pipeline("object-detection", "Xenova/detr-resnet-50");
const output = await detector(image.src, {
    threshold: 0.1,
    percentage: true
});

output.forEach(renderBox);

function renderBox({ box, label }) {
    const { xmax, xmin, ymax, ymin } = box;
    const boxElement = document.createElement("div");
    boxElement.className = "bounding-box";
    
    Object.assign(boxElement.style, {
        borderColor: '#123123',
        borderWidth: '1px',
        borderStyle: 'solid',
        left: 100 * xmin + '%',
        top: 100 * ymin + '%',
        width: 100 * (xmax - xmin) + "%",
        height: 100 * (ymax - ymin) + "%"
    });

    const labelElement = document.createElement('span');
    labelElement.textContent = label;
    labelElement.className = "bounding-box-label";
    labelElement.style.backgroundColor = '#000000';

    boxElement.appendChild(labelElement);
    imageContainer.appendChild(boxElement);
}

<!DOCTYPE html>
<html lang="zh-CN">
<head>
  <meta charset="UTF-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>前端图片对象检测</title>
  <style>
    .container {
      margin: 40px auto;
      width: max(50vw, 400px);
      display: flex;
      flex-direction: column;
      align-items: center;
    }

    .custom-file-upload {
      display: flex;
      align-items: center;
      cursor: pointer;
      gap: 10px;
      border: 2px solid black;
      padding: 8px 16px;
      border-radius: 6px;
    }

    #file-upload {
      display: none;
    }

    #image-container {
      width: 100%;
      margin-top: 20px;
      position: relative;
      min-height: 200px;
      border: 1px dashed #ccc;
    }

    #image-container > img {
      width: 100%;
      display: block;
    }

    .bounding-box {
      position: absolute;
      box-sizing: border-box;
      pointer-events: none;
    }

    .bounding-box-label {
      position: absolute;
      color: white;
      font-size: 12px;
      padding: 2px 4px;
      border-radius: 2px;
      background-color: rgba(0, 0, 0, 0.6);
    }
  </style>
</head>
<body>
  <main class="container">
    <label for="file-upload" class="custom-file-upload">
      <input type="file" accept="image/*" id="file-upload">
      上传图片
    </label>
    <div id="image-container"></div>
    <p id="status">等待上传...</p>
  </main>

  <script type="module">
    import { pipeline, env } from "https://cdn.jsdelivr.net/npm/@xenova/[email protected]"
    env.allowLocalModels = false;

    const fileUpload = document.getElementById('file-upload');
    const imageContainer = document.getElementById('image-container');
    const status = document.getElementById('status');
    let detector = null;

    // 初始化模型
    async function initDetector() {
      if (!detector) {
        status.textContent = "正在加载模型...";
        detector = await pipeline("object-detection", "Xenova/detr-resnet-50");
        status.textContent = "模型已就绪，请上传图片";
      }
    }

    fileUpload.addEventListener('change', async function (e) {
      const file = e.target.files[0];
      if (!file) return;

      // 清空之前的结果
      imageContainer.innerHTML = '';
      status.textContent = "分析中...";

      // 初始化模型（如果未加载）
       ();

       reader =  ();
      reader. =   () {
         image = .();
        image. = e2..;
        imageContainer.(image);
        
         {
           (image);
          status. = ;
        }  (err) {
          .(err);
          status. = ;
        }
      };
      reader.(file);
    });

    
      () {
       (!detector) ;
      
       output =  (image., {
        : ,
        : 
      });
      
      
       oldBoxes = imageContainer.();
      oldBoxes.( box.());

      output.(renderBox);
    }

    
     () {
       { xmax, xmin, ymax, ymin } = box;
       boxElement = .();
      boxElement. = ;
      
      .(boxElement., {
        : ,
        : ,
        : ,
        :  * xmin + ,
        :  * ymin + ,
        :  * (xmax - xmin) + ,
        :  * (ymax - ymin) + 
      });

       labelElement = .();
      labelElement. = label;
      labelElement. = ;
      labelElement.. = ;
      labelElement.. = ;

      boxElement.(labelElement);
      imageContainer.(boxElement);
    }
  </script>
</body>
</html>

基于 Transformers.js 实现前端图片对象检测

前言

先决条件

技术原理

实现步骤详解

Step 1：导入必要的模块

Step 2：HTML 结构与事件监听

更多推荐文章

相关免费在线工具

Step 3：读取上传的图像

Step 4：显示上传的图像

Step 5：启动 AI 检测

Step 6：使用 AI 模型进行对象检测

Step 7：渲染检测到的框

Step 8：渲染边界框

完整代码示例

性能优化与注意事项

常见问题排查

总结

更多推荐文章

相关免费在线工具

基于 Transformers.js 实现前端图片对象检测

前言

先决条件

技术原理

实现步骤详解

Step 1：导入必要的模块

Step 2：HTML 结构与事件监听

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Step 3：读取上传的图像

Step 4：显示上传的图像

Step 5：启动 AI 检测

Step 6：使用 AI 模型进行对象检测

Step 7：渲染检测到的框

Step 8：渲染边界框

完整代码示例

性能优化与注意事项

常见问题排查

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具