acge_text_embedding 文本向量化模型详解与 C-MTEB 评测分析

综述由AI生成介绍国产自研文本向量化模型 acge_text_embedding，该模型基于俄罗斯套娃表征学习（MRL）框架，在 C-MTEB 中文语义向量评测基准中取得第一名。文章解析了模型原理、效果复现及与检索增强生成（RAG）技术的结合应用，展示了其在搜索、聚类、推荐等任务中的表现，并探讨了如何利用高质量向量表示解决大模型的幻觉与知识时效性问题。

邪神洛基发布于 2025/2/6更新于 2026/6/222 浏览

在人工智能的浪潮中，以 GPT4、Claude3、Llama 3 等大型语言模型（LLM）无疑是最引人注目的潮头。这些模型通过在海量数据上的预训练，学习到了丰富的语言知识和模式，展现了惊人的能力。在支撑这些大型语言模型应用落地方面，文本向量化模型（Embedding Model）的重要性也不言而喻。

近期，国产自研文本向量化模型 acge_text_embedding（以下简称'acge 模型'）已经在业界权威的中文语义向量评测基准 C-MTEB（Chinese Massive Text Embedding Benchmark）中获得了第一名。本文将围绕以下问题，为大家带来 acge_text_embedding 模型解读以及应用思考：

文本向量化 acge 模型是什么？原理是什么？
acge 模型能达到什么样的效果，取得了什么样的成绩？
文本向量化模型的突破与检索增强生成 RAG 的联系？

一、文本向量化模型新突破——acge 模型

1.1、文本向量化模型概述

文本向量化模型是自然语言处理（NLP）中的一项核心技术，它可以将单词、句子或图像特征等高维的离散数据转换为低维的连续向量，从而将文本数据转换为计算机能够处理的数值型向量形式。文本向量化模型通过将文本信息表示成能够表达文本语义的向量，使得机器能够理解人类语言的内在含义。

当文本信息被转换为向量形式后，输出的结果能够进一步地为多种后续任务提供有力支持，如：

搜索：向量化使得搜索引擎能够根据查询字符串和文档之间的向量相似性来排名搜索结果，排名靠前的结果通常与查询字符串最相关。
聚类：在文本聚类任务中，向量化可以被用来度量文本之间的相似性，从而将文本分组成不同的类别或簇。
推荐：向量化可帮助构建用户和项目的表示特征，使得推荐系统可以根据用户历史行为或偏好，计算用户向量与项目向量之间的相似度，从而向用户推荐具有相关性的项目。
异常检测：在异常检测任务中，向量化可用于将文本数据映射到一个向量空间中，并通过度量文本向量与正常数据之间的距离或相似性来识别与正常行为不同的异常值。
多样性测量：通过向量化，可以分析文本数据在向量空间中的分布情况，从而评估文本数据的多样性。
分类：向量化能够将文本数据转换为数值型向量表示，从而使得分类算法可以根据文本向量与不同类别之间的相似性来将文本数据分类到最相似的标签或类别中。

而 acge 模型则是文本向量化模型的一种创新实现。

1.2、acge 模型简述

在主体框架上，acge_text_embedding 模型主要运用了俄罗斯套娃表征学习（Matryoshka Representation Learning，以下简称 MRL）这一灵活的表示学习框架。

类似于俄罗斯套娃结构，MRL 产生的嵌入向量也是一个嵌套结构，其旨在创建一个嵌套的、多粒度的表示向量，每个较小的向量都是较大向量的一部分，并且可以独立用于不同的任务。在训练时，MRL 根据指定维度 [64, 128, ..., 2048, 3072] 的向量来计算多个 loss。使得用户在推理时，可以根据自己的实际需求，输入维度参数，来得到指定维度的向量。

MRL 的优化问题可以表示为：

$$ \min_{{W(m)}{m \in M}, \theta_F} \frac{1}{N} \sum{i \in [N]} \sum_{m \in M} c_m \cdot L(W(m) \cdot F(x_i; \theta_F)_{1:m}; y_i) $$

其中，$L: \mathbb{R}^{L \times [L]} \rightarrow \mathbb{R}^+$ 是多类 softmax 交叉熵损失函数，而 $F(\cdot; \theta_F): X \rightarrow \mathbb{R}^d$ 是由参数 $\theta_F$ 参数化的深度神经网络，$N$ 是数据点的数量，$L$ 是类别的数量。

这种方法的核心思想是学习不同粒度的信息，允许一个嵌入向量在保持准确性和丰富性的同时，适应不同计算资源的需求，并可以无缝地适应大多数表示学习框架，并且可以扩展到多种标准计算机视觉和自然语言处理任务。

运用 MRL 技术，实现一次训练，获取不同维度的表征，acge 模型实现了从粗到细的层次化表示，从而提供了一种在推理和部署时不需要额外成本的灵活表示。另外，具体实践上，为做好不同任务的针对性学习，acge 模型使用策略学习训练方式，显著提升了检索、聚类、排序等任务上的性能；引入持续学习训练方式，克服了神经网络存在灾难性遗忘的问题，使模型训练迭代能够达到相对优秀的收敛空间。

二、acge 模型效果评估

2.1、acge 模型结果复现

下面我们对 acge 模型进行结果复现，acge 模型提供了预训练好的模型供试用与性能复现，首先安装 sentence_transformers 依赖：

相关免费在线工具

加密/解密文本

使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online

RSA密钥对生成器

生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online

Mermaid 预览与可视化编辑

基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online

随机西班牙地址生成器

随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online

Gemini 图片去水印

基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

curl 转代码

解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch import argparse import functools from C_MTEB.tasks import * from typing import List, Dict from sentence_transformers import SentenceTransformer from mteb import MTEB, DRESModel class RetrievalModel(DRESModel): def __init__(self, encoder, **kwargs): self.encoder = encoder def encode_queries(self, queries: List[str], **kwargs) -> np.ndarray: input_texts = ['{}'.format(q) for q in queries] return self._do_encode(input_texts) def encode_corpus(self, corpus: List[Dict[str, str]], **kwargs) -> np.ndarray: input_texts = ['{} {}'.format(doc.get('title', ''), doc['text']).strip() for doc in corpus] input_texts = ['{}'.format(t) for t in input_texts] return self._do_encode(input_texts) @torch.no_grad() def _do_encode(self, input_texts: List[str]) -> np.ndarray: return self.encoder.encode( sentences=input_texts, batch_size=512, normalize_embeddings=True, convert_to_numpy=True ) def get_args(): parser = argparse.ArgumentParser() parser.add_argument('--model_name_or_path', default="acge_text_embedding", type=str) parser.add_argument('--task_type', default=None, type=str) parser.add_argument('--pooling_method', default='cls', type=str) parser.add_argument('--output_dir', default='zh_results', type=str, help='output directory') parser.add_argument('--max_len', default=1024, type=int, help='max length') return parser.parse_args() if __name__ == '__main__': args = get_args() encoder = SentenceTransformer(args.model_name_or_path).half() encoder.encode = functools.partial(encoder.encode, normalize_embeddings=True) encoder.max_seq_length = int(args.max_len) task_names = [t.description["name"] for t in MTEB(task_types=args.task_type, task_langs=['zh', 'zh-CN']).tasks] TASKS_WITH_PROMPTS = ["T2Retrieval", "MMarcoRetrieval", "DuRetrieval", "CovidRetrieval", "CmedqaRetrieval", "EcomRetrieval", "MedicalRetrieval", "VideoRetrieval"] for task in task_names: evaluation = MTEB(tasks=[task], task_langs=['zh', 'zh-CN']) if task in TASKS_WITH_PROMPTS: evaluation.run(RetrievalModel(encoder), output_folder=args.output_dir, overwrite_results=False) else: evaluation.run(encoder, output_folder=args.output_dir, overwrite_results=False)

acge_text_embedding 文本向量化模型详解与 C-MTEB 评测分析

一、文本向量化模型新突破——acge 模型

1.1、文本向量化模型概述

1.2、acge 模型简述

二、acge 模型效果评估

2.1、acge 模型结果复现

更多推荐文章

相关免费在线工具

2.2、C-MTEB 评估复现

三、文本向量化模型的突破与检索增强生成 RAG

更多推荐文章

相关免费在线工具

acge_text_embedding 文本向量化模型详解与 C-MTEB 评测分析

一、文本向量化模型新突破——acge 模型

1.1、文本向量化模型概述

1.2、acge 模型简述

二、acge 模型效果评估

2.1、acge 模型结果复现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2、C-MTEB 评估复现

三、文本向量化模型的突破与检索增强生成 RAG

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具