Sentence-BERT 句嵌入模型介绍与实践

Sentence-BERT 句嵌入模型介绍与实践 | 极客日志

pip install transformers torch numpy scikit-learn

from transformers import AutoTokenizer, AutoModel
import torch
import numpy as np

tokenizer = AutoTokenizer.from_pretrained('./sentence-transformers')
model = AutoModel.from_pretrained('./sentence-transformers')

sentences = ['中午我想吃清蒸鲈鱼', '天气预报说明天下雨', '食堂的餐饭不好吃', '我做了红烧鱼作为中午的饭菜']
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output = model(**encoded_input)

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask']).cpu().numpy()

print(sentence_embeddings.shape)
# Output: (4, 384)
print(sentence_embeddings)

def compute_sim_score(v1, v2):
    return v1.dot(v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

score_0_1 = compute_sim_score(sentence_embeddings[0], sentence_embeddings[1])
score_0_2 = compute_sim_score(sentence_embeddings[0], sentence_embeddings[2])
score_0_3 = compute_sim_score(sentence_embeddings[0], sentence_embeddings[3])

print(f"Score 0-1: {score_0_1}")
print(f"Score 0-2: {score_0_2}")
print(f"Score 0-3: {score_0_3}")

目标句子	候选句子	相似度
中午我想吃清蒸鲈鱼	天气预报说明天下雨	0.3363
中午我想吃清蒸鲈鱼	食堂的餐饭不好吃	0.3904
中午我想吃清蒸鲈鱼	我做了红烧鱼作为中午的饭菜	0.7262

打不开花呗   为什么花呗打不开    1
花呗收钱就是用支付宝帐号收嘛  我用手机花呗收钱    0
花呗买东西，商家不发货怎么退款 花呗已经分期的商品 退款怎么办 0

def collate_fn(data):
    s, labels = [], []  # 二元组
    for d in data:  # 三元组 (s1, s2, label)
        s.append(d[0])
        s.append(d[1])
        labels.append(d[2])  # y 值也需要复制一次
        labels.append(d[2])
    s_token = TOKENIZER.batch_encode_plus(s, truncation=True, max_length=PRE_TRAIN_CONFIG.max_position_embeddings,
                                          return_tensors="pt", padding=True)
    labels = torch.LongTensor(labels)
    return s_token, labels

class SentenceBert(nn.Module):
    def __init__(self):
        super(SentenceBert, self).__init__()
        self.pre_train = PRE_TRAIN
        self.linear = nn.Linear(PRE_TRAIN_CONFIG.hidden_size * 3, 2)
        nn.init.xavier_normal_(self.linear.weight.data)

    def get_cosine_score(self, s1, s2):
        s1_norm = s1 / torch.norm(s1, dim=1, keepdim=True)
        s2_norm = s2 / torch.norm(s2, dim=1, keepdim=True)
        cosine_score = (s1_norm * s2_norm).sum(dim=1)
        return cosine_score

    def forward(self, s):
        s_emb = self.pre_train(**s)['last_hidden_state'][:, 0, :]
        s1_emb, s2_emb = s_emb[::2], s_emb[1::2]
        cosine_score = self.get_cosine_score(s1_emb, s2_emb)
        concat = torch.concat([s1_emb, s2_emb, torch.abs(s1_emb - s2_emb)], dim=1)
        output = self.linear(concat)
        return output, cosine_score

model = SentenceBert().to(DEVICE)
criterion = nn.CrossEntropyLoss(reduction="mean")
optimizer = torch.optim.AdamW(model.parameters(), lr=0.00003)
for step, (s, labels) in enumerate(train_loader):
    s, labels = s.to(DEVICE), labels.to(DEVICE)[::2]  # labels 需要折叠，取偶数位即可
    model.train()
    output, cosine_score = model(s)
    loss = criterion(output, labels)
    loss.backward()
    optimizer.step()
    
    # 计算皮尔逊相关系数作为早停条件
    corrcoef = compute_corrcoef(cosine_score.detach().cpu().numpy(), labels.detach().cpu().numpy())
    print("epoch: {}, step: {}, loss: {}, corrcoef:{}".format(epoch + 1, step, loss.item(), corrcoef))
    if step % 200 == 0 or step == len(train_loader):
        # 验证集早停逻辑
        loss_val, corrcoef_val = eval_metrics(model, val_loader)
        ...

# TODO 测试
model2 = SentenceBert().to(DEVICE)
model2.load_state_dict(torch.load("./model/sbert_{}.bin".format(data)))
loss_test, corrcoef_test = eval_metrics(model2, test_loader)
# 0.41255660838512037 0.4555726951427768
print(loss_test, corrcoef_test)

s_bert = model2.pre_train
torch.save(s_bert.state_dict(), "./model/sbert_ATEC/pytorch_model.bin")

from transformers import BertModel, BertTokenizer, BertConfig

PRE_TRAIN_PATH = "model/sbert_ATEC"
TOKENIZER = BertTokenizer.from_pretrained(PRE_TRAIN_PATH)
PRE_TRAIN_CONFIG = BertConfig.from_pretrained(PRE_TRAIN_PATH)
PRE_TRAIN = BertModel.from_pretrained(PRE_TRAIN_PATH)

cut = list(range(0, len(total), batch_size))
for i in range(len(cut)):
    start, end = cut[i], len(total) if i == len(cut) - 1 else cut[i + 1]
    batch_text = total[start:end]
    text_token = TOKENIZER.batch_encode_plus(batch_text, truncation=True, padding=True,
                                             max_length=PRE_TRAIN_CONFIG.max_position_embeddings,
                                             return_tensors="pt")
    embs = PRE_TRAIN(**text_token)[0][:, 0, :]
    embs_norm = (embs / torch.norm(embs, dim=1, keepdim=True)).detach().cpu().numpy().tolist()
    total_emb.extend(embs_norm)

pickle.dump((total, total_emb), open("./model/sbert_ATEC/emb.bin", "wb"))

句子：蚂蚁借呗用了了多久能恢复
向量：[-0.017775828018784523, 0.06854370981454849, -0.00908558805286884, 0.007142649497836828,...]

def search_top_n(input_text, candidate_text, candidate_emb, top_n=3):
    text_token = TOKENIZER.batch_encode_plus([input_text], truncation=True, padding=True,
                                             max_length=PRE_TRAIN_CONFIG.max_position_embeddings,
                                             return_tensors="pt")
    embs = PRE_TRAIN(**text_token)[0][:, 0, :].detach().cpu().numpy()
    # 输入文本向量标准化
    embs = embs / np.linalg.norm(embs, axis=1)
    # 计算余弦相似度
    scores = np.dot(embs, np.array(candidate_emb).T)
    scores[np.isneginf(scores)] = 0
    top_score = np.sort(scores, axis=1)[:, -3:]
    top_index = np.argsort(scores, axis=1)[:, -3:]

    res = []
    for s, i in zip(top_score, top_index):
        one = []
        for n in range(top_n):
            one.append({"text": candidate_text[i[n]], "score": s[n]})
        res.append(one)
    return res

>>> input_text = "没网的时候支付宝能够支付吗"
>>> search_top_n(input_text, total, total_emb, top_n=3)
[[{'text': '怎样去消花呗的免密支付', 'score': 0.9739149930056332}, 
{'text': '怎么关闭花呗免密支付', 'score': 0.9834292467296013},
{'text': '怎样关闭花呗的免密支付', 'score': 0.9878402150756829}]]

>>> input_text = "没网的时候支付宝能够支付吗"
>>> search_top_n(input_text, total, total_emb, top_n=3)
[[{'text': '手机没网，花呗会自动扣款吗', 'score': 0.874686905948586}, 
{'text': '不用手机支付宝，花呗能自动还款吧', 'score': 0.8775933520615644},
{'text': '我没有手机支付宝 是不是就没办法给花呗还款了', 'score': 0.8905988043804666}]]

>>> input_text = "支付宝能炒股吗"
>>> search_top_n(input_text, total, total_emb, top_n=3)
[[{'text': '借呗可以用来买股票吗', 'score': 0.900523830153816}, 
{'text': '蚂蚁借呗能拿来买股票吗', 'score': 0.9067184565541515},
{'text': '借呗可以炒股吗', 'score': 0.9342895273812792}]]

Sentence-BERT 句嵌入模型介绍与实践

Sentence-BERT 句嵌入模型介绍与实践

前言

Embedding 技术和句嵌入简述

环境配置与依赖

Sentence-BERT 快速开始

Sentence-BERT 原理综述

孪生神经网络和对比学习

Sentence-BERT 句嵌入语义相似检索实践

数据预览

数据处理

网络搭建

模型评价指标

超参数调优建议

模型预测向量

文本匹配检索

更多推荐文章

相关免费在线工具

Sentence-BERT 句嵌入模型介绍与实践

Sentence-BERT 句嵌入模型介绍与实践

前言

Embedding 技术和句嵌入简述

环境配置与依赖

Sentence-BERT 快速开始

Sentence-BERT 原理综述

孪生神经网络和对比学习

Sentence-BERT 句嵌入语义相似检索实践

数据预览

数据处理

网络搭建

模型评价指标

超参数调优建议

模型预测向量

文本匹配检索

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具