CoSENT 句嵌入模型理论介绍与语义检索实践 | 极客日志

PythonAI算法

CoSENT 句嵌入模型理论介绍与语义检索实践

综述由AI生成CoSENT 是一种基于余弦相似度排序损失的句嵌入模型，改进了 Sentence-BERT 训练与预测目标不一致的问题。 CoSENT 的理论基础，详细阐述了其损失函数的数学推导及排序思想，并通过 Python 代码展示了模型加载、预处理、训练及推理的全过程。实验结果显示，在 ATEC 和 BQ 数据集上，CoSENT 的 Spearman 相关系数均高于 Sentence-BERT，证明了其在文本匹配场景下的有效性。此外，文章还提供了工业界应用流程、超参数调优建议及常见问题排查指南，帮助开发者更好地部署和使用 CoSENT 模型进行语义检索。

游戏玩家发布于 2025/2/7更新于 2026/6/221 浏览

CoSENT 句嵌入模型理论介绍与语义检索实践

引言

CoSENT（Cosine Sentence）是一种基于余弦相似度排序损失的句嵌入模型。相较于传统的 Sentence-BERT，CoSENT 在训练目标上进行了改进，使其更契合文本匹配的实际应用场景。本文将对 CoSENT 的理论基础进行简述，并结合领域文本训练句嵌入以实现语义检索，最终对比 CoSENT 和 Sentence-BERT 的效果差异。

有监督句嵌入模型概述

句嵌入是将句子表征为向量的过程，基于句向量可以进一步完成文本匹配、文本聚类、语义搜索等下游场景任务。句嵌入主要分为无监督和监督两大类。

Sentence-BERT 是一种典型的有监督句嵌入方案，它通过人工标注的三元组数据（句子 1，句子 2，是否相似），微调 BERT 使得相似语义的文本表征距离更小。而无监督的方案不需要人工标注，它依据文本的上下文关系来构造出预测任务，句嵌入是该任务的中间产物。这类方法包括 Word2Vec 词嵌入池化、Doc2Vec、Sentence2Vec、Skip-Thought Vectors 等。

本篇重点介绍另一种有监督句嵌入模型CoSENT。它将cosine 余弦相似度的排序损失引入到 Sentence-BERT 的训练环节，使得训练过程更加契合应用场景，同时加快模型在训练阶段的收敛。在众多数据集上，CoSENT 的表现优于 Sentence-BERT。

快速开始：使用 CoSENT 生成句嵌入

模型加载

在 HuggingFace 模型仓库中下载 shibing624/text2vec-base-chinese 预训练模型。该模型以 macbert 作为基座，通过 CoSENT 损失函数策略微调得到，可以实现对输入文本做 Embedding 表征。

CoSENT 也是 BERT 模型微调的结果，因此使用 BERT 的模型 API 导入 CoSENT 模型和词表。

from transformers import BertTokenizer, BertModel
import torch

embedding_model_name = "./text2vec-base-chinese"
embedding_model_length = 512

tokenizer = BertTokenizer.from_pretrained(embedding_model_name)
model = BertModel.from_pretrained(embedding_model_name)

预处理与编码

输入样例句子，对它们进行分词编码预处理。注意设置 padding=True 和 truncation=True 以适应批量处理。

sentences = [
    '我不知道过年火车票能不能抢到',
    '过年假期你准备去哪里玩',
    '我准备春节请假两天提前回家，但是好没有抢到票',
    '这个假期太短了，我作业还没有做完'
]

encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

均值池化

输出层需要使用 BERT 最后一层 block 的非 Padding 位置所有词 Embedding 的均值池化作为句嵌入。定义 mean_pooling 函数来实现该操作。

def mean_pooling():
    token_embeddings = model_output[]  
    input_mask_expanded = attention_mask.unsqueeze(-).expand(token_embeddings.size()).()
     torch.(token_embeddings * input_mask_expanded, ) / torch.clamp(input_mask_expanded.(), =)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

with torch.no_grad():
    model_output = model(**encoded_input)
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask']).cpu().numpy()
print(sentence_embeddings.shape)  # (4, 768)

import numpy as np

def compute_sim_score(v1, v2):
    return v1.dot(v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

# 计算相似度
score_1 = compute_sim_score(sentence_embeddings[0], sentence_embeddings[1])  # 约 0.49395
score_2 = compute_sim_score(sentence_embeddings[0], sentence_embeddings[2])  # 约 0.6530
score_3 = compute_sim_score(sentence_embeddings[0], sentence_embeddings[3])  # 约 0.4531

print(f"与句 1 相似度：{score_1:.4f}")
print(f"与句 2 相似度：{score_2:.4f}")
print(f"与句 3 相似度：{score_3:.4f}")

目标句子	候选句子	余弦相似度
我不知道过年火车票能不能抢到	过年假期你准备去哪里玩	0.4940
我不知道过年火车票能不能抢到	我准备春节请假两天提前回家，但是好没有抢到票	0.6530
我不知道过年火车票能不能抢到	这个假期太短了，我作业还没有做完	0.4531

正样本：什么时候可以降低花呗额度    花呗怎么降低额度    1
负样本：花呗里面没有看到    花呗也没有看到钱    0

相似度对比	<V1,V2>	<V3,V4>	V5,V6
<V1,V2>	等于	大于	大于
<V3,V4>	小于	等于	?
<V5,V6>	小于	?	等于

import torch.nn as nn

def get_cosine_score(s1: torch.Tensor, s2: torch.Tensor):
    s1_norm = s1 / torch.norm(s1, dim=1, keepdim=True)
    s2_norm = s2 / torch.norm(s2, dim=1, keepdim=True)
    cosine_score = (s1_norm * s2_norm).sum(dim=1)
    return cosine_score

class SentenceBert(nn.Module):
    def __init__(self):
        super(SentenceBert, self).__init__()
        self.pre_train = PRE_TRAIN  # 假设已加载预训练模型
        self.linear = nn.Linear(PRE_TRAIN_CONFIG.hidden_size * 3, 2)
        nn.init.xavier_normal_(self.linear.weight.data)

    def forward(self, s):
        s_emb = self.pre_train(**s)['last_hidden_state'][:, 0, :]
        s1_emb, s2_emb = s_emb[::2], s_emb[1::2]
        cosine_score = get_cosine_score(s1_emb, s2_emb)
        return s1_emb, s2_emb, cosine_score

def cosent_loss(s1_emb, s2_emb, labels):
    # TODO [batch_size/2, 1] < [1, batch_size/2] => [batch_size/2, batch_size/2],
    # TODO 0<1,为 1 的时候都是负样本 - 正样本,
    labels = (labels[:, None] < labels[None, :]).to(float)
    
    # 温度系数调整，增加梯度敏感度
    cosine_score = get_cosine_score(s1_emb, s2_emb) * 20
    
    # TODO [batch_size/2, 1] - [1, batch_size/2] => [batch_size/2, batch_size/2], 
    # 该批次下每一对的余弦相似度和自己以及其他对的差
    cosine_diff = cosine_score[:, None] - cosine_score[None, :]
    
    # TODO 将正样本 - 其他，或者自身 - 自身这种情况踢出，置为负无穷大即可，只允许负样本 - 正样本
    cosine_diff = (cosine_diff - (1 - labels) * 1e12).reshape(-1)
    
    # TODO 补充上自身和自身相减
    cosine_diff = torch.concat([torch.tensor([0.0]).to(DEVICE), cosine_diff], dim=0)
    
    return torch.logsumexp(cosine_diff, dim=0)

for step, (s, labels) in enumerate(train_loader):
    s, labels = s.to(DEVICE), labels.to(DEVICE)[::2]
    model.train()
    optimizer.zero_grad()
    s1_emb, s2_emb, cosine_score = model(s)
    loss = cosent_loss(s1_emb, s2_emb, labels)
    loss.backward()
    optimizer.step()
    # 记录日志...

epoch: 6, step: 622, loss: 5.033726978888658, corrcoef:0.6161128974200909
epoch: 6, step: 623, loss: 5.7895638147161375, corrcoef:0.7360637834284756
100%|██████████| 313/313 [00:31<00:00,  9.78it/s]
[evaluation] loss: 6.5288932967316 corrcoef: 0.4973212744783885
本轮 Spearman 相关系数比之前最大 Spearman 相关系数下降：0.006715430800930733, 当前最大 Spearman 相关系数：0.5040367052793192
early stop...
[test] loss: 2113085378242445, corrcoef: 0.4973765080838994

算法/数据集合	ATEC 数据集	BQ 数据集
Sentence-BERT	0.4592	0.7006
CoSENT-BERT	0.4974	0.7129

CoSENT 句嵌入模型理论介绍与语义检索实践

CoSENT 句嵌入模型理论介绍与语义检索实践

引言

有监督句嵌入模型概述

快速开始：使用 CoSENT 生成句嵌入

模型加载

预处理与编码

均值池化

更多推荐文章

相关免费在线工具

推理与验证

CoSENT 的目标函数详解

训练与预测的不一致性

余弦相似度的局限性

排序思想的引入

损失函数推导

CoSENT 模型搭建和语义检索实践

模型结构

核心损失函数实现

训练评估与结果

工业界应用与优化建议

语义检索流程

超参数调优指南

常见问题排查

总结

更多推荐文章

相关免费在线工具

CoSENT 句嵌入模型理论介绍与语义检索实践

CoSENT 句嵌入模型理论介绍与语义检索实践

引言

有监督句嵌入模型概述

快速开始：使用 CoSENT 生成句嵌入

模型加载

预处理与编码

均值池化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

推理与验证

CoSENT 的目标函数详解

训练与预测的不一致性

余弦相似度的局限性

排序思想的引入

损失函数推导

CoSENT 模型搭建和语义检索实践

模型结构

核心损失函数实现

训练评估与结果

工业界应用与优化建议

语义检索流程

超参数调优指南

常见问题排查

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具