基于 GTE 大模型快速搭建中文语义相似度 WebUI 与 API 服务 | 极客日志

PythonAI算法

基于 GTE 大模型快速搭建中文语义相似度 WebUI 与 API 服务

介绍基于达摩院开源 GTE 中文向量模型，通过 Docker 镜像快速部署中文语义相似度计算服务。方案集成 Flask 构建前后端一体化应用，提供可视化 WebUI 界面与标准 RESTful API 接口。内容涵盖技术背景、镜像启动流程、API 调用示例、批量处理优化建议以及模型底层机制解析。该服务专为 CPU 环境优化，适用于搜索推荐、RAG 检索增强、内容去重等场景，支持中小企业及个人开发者快速集成语义理解能力。

宁静发布于 2026/4/5更新于 2026/6/338 浏览

基于 GTE 大模型快速搭建中文语义相似度 WebUI 与 API 服务

在当前自然语言处理（NLP）领域，语义相似度计算已成为搜索、推荐、问答系统和 RAG 架构中的核心能力。如何高效、准确地判断两段中文文本的语义接近程度？本文将带你基于 GTE 中文语义相似度服务镜像，快速部署一个集 可视化 WebUI 与 RESTful API 于一体的轻量级 CPU 推理服务。

本方案采用达摩院开源的 GTE-Base 中文向量模型，结合 Flask 构建前后端一体化服务，无需配置复杂环境，一键启动即可使用。特别适合中小企业、开发者个人项目或边缘设备部署场景。

1. 技术背景：为什么选择 GTE 做中文语义相似度？

在众多文本嵌入（Text Embedding）模型中，阿里通义实验室推出的 GTE（General Text Embedding）系列 凭借其高精度与多语言支持能力，在 C-MTEB 中文榜单上表现优异，成为中文语义理解任务的重要选择之一。

1.1 GTE 的核心优势

特性	说明
✅ 高精度中文表征	基于 BERT 架构优化，在 C-MTEB 多个子任务中领先同规模模型
✅ 支持长文本输入	最大支持 8192 token 长度，适用于文档级语义匹配
✅ CPU 友好设计	模型参数量适中（base 级别约 1 亿），推理速度快，内存占用低
✅ 多功能输出	支持稠密向量（Dense）、稀疏权重（Sparse）等多种表示形式

💡 对比提示：相较于 BGE-M3 等多功能模型，GTE-Base 更专注于'双编码器 + 余弦相似度'的轻量级语义匹配场景，更适合对延迟敏感的应用。

1.2 语义相似度的基本原理

语义相似度计算通常分为两个阶段：

文本向量化：使用预训练模型将句子映射为固定维度的向量（如 768 维）
相似度度量：通过余弦相似度（Cosine Similarity） 计算两个向量之间的夹角余弦值，范围为 [-1, 1]，经归一化后转换为 [0%, 100%]

$$ \text{Similarity} = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|} \times 100% $$

该方法具有计算高效、可扩展性强的优点，广泛应用于检索排序、去重、聚类等任务。

2. 快速部署：从镜像到服务的全流程实践

我们使用的镜像是专为中文语义相似度场景定制的 'GTE 中文语义相似度服务'，已集成以下组件：

🧠 iic/nlp_gte_sentence-embedding_chinese-base（ModelScope 版 GTE-Base）
🖥️ Flask + Bootstrap 构建的可视化 WebUI
🔌 RESTful API 接口 /api/similarity
⚙️ 自动修复了 Transformers 版本兼容性问题（锁定 4.35.2）

2.1 启动镜像并访问 WebUI

步骤一：拉取并运行镜像

docker run -d --name gte-similarity -p 5000:5000 your-registry/gte-chinese-similarity:cpu

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

http://<your-host>:5000/

句子 A	句子 B	相似度
我爱吃苹果	苹果很好吃	89.2%
今天天气真好	明天要下雨了	12.3%
如何安装 Python？	Python 安装教程	91.5%

属性	值
请求方法	`POST`
路径	`/api/similarity`
Content-Type	`application/json`
返回格式	JSON

{
  "sentence_a": "这是一段中文文本",
  "sentence_b": "这是另一段中文文本"
}

{
  "similarity": 89.2,
  "label": "high",
  "message": "success"
}

相似度区间	label 值	含义
≥ 80%	`"high"`	高度相似
60% ~ 79%	`"medium"`	部分相关
< 60%	`"low"`	语义无关

import requests
import json

def calculate_similarity(sentence_a, sentence_b, api_url="http://localhost:5000/api/similarity"):
    payload = {
        "sentence_a": sentence_a,
        "sentence_b": sentence_b
    }
    try:
        response = requests.post(
            api_url,
            data=json.dumps(payload),
            headers={'Content-Type': 'application/json'},
            timeout=5
        )
        if response.status_code == 200:
            result = response.json()
            print(f"语义相似度：{result['similarity']:.1f}%")
            print(f"匹配等级：{result['label']}")
            return result['similarity']
        else:
            print(f"请求失败，状态码：{response.status_code}")
            return None
    except Exception as e:
        print(f"调用异常：{str(e)}")
        return None

# 使用示例
if __name__ == "__main__":
    s1 = "我想订一张去北京的机票"
    s2 = "帮我买飞往北京的航班"
    score = calculate_similarity(s1, s2)

语义相似度：87.6%
匹配等级：high

# 伪代码：向量缓存优化
from functools import lru_cache

@lru_cache(maxsize=1000)
def get_embedding(text):
    # 编码逻辑（仅首次执行）
    return model.encode(text)

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

# 初始化 GTE 中文 base 模型管道
similarity_pipeline = pipeline(
    task=Tasks.sentence_similarity,
    model='iic/nlp_gte_sentence-embedding_chinese-base'
)

# 输入待比较的两个句子
inputs = {
    'source': '我爱吃苹果',
    'target': '苹果很好吃'
}

# 执行推理
result = similarity_pipeline(input=inputs)
print(result)  # {'score': 0.892}

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

def compute_cosine_similarity(vec_a, vec_b):
    """ 计算两个向量间的余弦相似度（返回百分比） """
    sim = cosine_similarity([vec_a], [vec_b])[0][0]
    return round(float(sim * 100), 1)

# 示例：假设已有两个句向量
vector_a = model.encode("我爱吃苹果")  # shape: (768,)
vector_b = model.encode("苹果很好吃")  # shape: (768,)
score = compute_cosine_similarity(vector_a, vector_b)  # 输出：89.2

<div>
  <canvas></canvas>
</div>
<script>
// 使用 Chart.js 绘制弧形进度条
const ctx = document.getElementById('similarityGauge').getContext('d');
new Chart(ctx, {
  type: 'doughnut',
  data: {
    datasets: [{
      data: [value, 100-value],
      backgroundColor: ['#4CAF50', '#E0E0E0']
    }]
  },
  options: {
    circumference: Math.PI,
    rotation: Math.PI,
    cutout: '70%',
    plugins: {
      tooltip: { enabled: false }
    }
  }
});
</script>

场景	应用方式
智能客服	判断用户问题与知识库问答的匹配度
内容去重	检测文章/评论是否存在语义重复
RAG 检索增强	在召回阶段过滤低相关性文档
用户意图识别	将用户输入与预设意图模板比对
教育测评	自动评分作文与标准答案的语义贴近度

基于 GTE 大模型快速搭建中文语义相似度 WebUI 与 API 服务

基于 GTE 大模型快速搭建中文语义相似度 WebUI 与 API 服务

1. 技术背景：为什么选择 GTE 做中文语义相似度？

1.1 GTE 的核心优势

1.2 语义相似度的基本原理

2. 快速部署：从镜像到服务的全流程实践

2.1 启动镜像并访问 WebUI

步骤一：拉取并运行镜像

更多推荐文章

相关免费在线工具

步骤二：打开 Web 界面

示例测试

3. API 开发：集成至自有系统的最佳方式

3.1 API 接口定义

请求体结构

成功响应示例

3.2 Python 调用示例代码

输出结果：

3.3 批量处理优化建议

4. 核心技术解析：GTE 模型的工作机制

4.1 模型加载与编码流程

流程拆解：

4.2 余弦相似度计算实现细节

4.3 WebUI 前端交互设计亮点

5. 总结

5.1 核心价值回顾

5.2 适用场景推荐

更多推荐文章

相关免费在线工具

基于 GTE 大模型快速搭建中文语义相似度 WebUI 与 API 服务

基于 GTE 大模型快速搭建中文语义相似度 WebUI 与 API 服务

1. 技术背景：为什么选择 GTE 做中文语义相似度？

1.1 GTE 的核心优势

1.2 语义相似度的基本原理

2. 快速部署：从镜像到服务的全流程实践

2.1 启动镜像并访问 WebUI

步骤一：拉取并运行镜像

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤二：打开 Web 界面

示例测试

3. API 开发：集成至自有系统的最佳方式

3.1 API 接口定义

请求体结构

成功响应示例

3.2 Python 调用示例代码

输出结果：

3.3 批量处理优化建议

4. 核心技术解析：GTE 模型的工作机制

4.1 模型加载与编码流程

流程拆解：

4.2 余弦相似度计算实现细节

4.3 WebUI 前端交互设计亮点

5. 总结

5.1 核心价值回顾

5.2 适用场景推荐

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具