RAG 的基石：大语言模型文本向量化能力对比

一、概述

大家比较关心大语言模型的能力，但往往容易忽略其向量化（Embedding）的能力。在 RAG 应用中，对文本进行向量化后再计算向量相似度，如余弦相似度，是文本检索生成的基础和前置环节。如果向量不准确，必定会影响相似度计算，进一步影响召回和重排，甚至知识抽取等下游任务，影响甚大。因而我们需要认真对待其结果，并且对其正确性和合理性进行评价。

本文对一些简单的文本对，使用不同的开源 7B 大语言模型来进行向量化，最终以其余弦相似度作为输出作为测试结果。语义的相似度如何进行评价很难达成一致意见，就下面的输出结果而言，可能人很难来评价其合理性。但我们可以通过比较不同大语言模型输出之间的差异，对比分析其文本向量化的能力、跨模型一致性和偏差。

先直接贴结果：

RAG 的基石：大语言模型文本向量化能力对比

图：不同大语言模型对字符串对向量相似度比较

可以看出，不同的大语言模型，对同一对字符串向量相似度的理解存在较大的差异。我第一次看到结果时感觉有点惊讶。我现在还没有理出头绪，但显然其中部分大语言模型的输出是不合理的，并且有的输出和其他大语言模型的输出存在较大的偏离，很显然，如果其中一个是正确的情况，那其他就是偏离甚至错误的情况。比如同一组词的相似度，不同大语言模型的输出范围包括从负值到 0.7 以上。

二、评测对象

Baichuan2-7B-Chat
CodeLlama-7B
Mistral-7B
Chinese-Alpaca-2-7B
Llama 2 7b
Chinese-Llama-2
WizardLM-2-7B
Qwen1.5-7B
Meta-Llama-3-8B
WizardMath-7B
Mixtral-8x7B
Yi-chat-9B
WizardMath-7B-V1.1-Mistral-7B

三、测试方法

使用 LlamaSharp，以 Embedding 模式加载大语言模型，实现文本向量化：

RAG 的基石：大语言模型文本向量化能力对比

四、评测结果

1、爱好比较

我喜欢看电视，不喜欢看电影。
我不喜欢看电视，也不喜欢看电影。

序号	大语言模型	余弦相似度
1	Mistral-7B	0.9194595217704773
2	WizardMath-7B-V1.1-Mistral-7B	0.9722315669059753
3	WizardMath-7B	0.9659444093704224
4	WizardLM-2-7B	0.9000769257545471
5	Meta-Llama-3-8B	0.9120883941650391
6	Chinese-Llama-2	0.9997099041938782
7	Qwen1.5-7B	0.8777709603309631
8	Llama 2 7b	0.9997739791870117
9	Yi-chat-9B	0.9656155109405518
10	Chinese-Alpaca-2-7B	0.9418708682060242
11	Baichuan2-7B-Chat	0.7609831690788269
12	CodeLlama-7B	0.9805717468261719
13	Mixtral-8x7B	0.9723657369613647

RAG 的基石：大语言模型文本向量化能力对比

2、下班注意事项

下班离开办公室之前要把门窗关好
公司管理规定

序号	大语言模型	余弦相似度
1	Mistral-7B	0.6006873250007629
2	Chinese-Alpaca-2-7B	0.5809993743896484
3	Mixtral-8x7B	0.8583651185035706
4	WizardMath-7B	0.5944302678108215
5	Qwen1.5-7B	0.5158098340034485
6	Meta-Llama-3-8B	0.5567445755004883
7	WizardMath-7B-V1.1-Mistral-7B	0.606997549533844
8	Llama 2 7b	0.5725998282432556
9	Yi-chat-9B	0.6222318410873413
10	CodeLlama-7B	0.7767068147659302
11	Baichuan2-7B-Chat	0.4148940443992615
12	Chinese-Llama-2	0.4173697233200073
13	WizardLM-2-7B	0.4826260805130005

RAG 的基石：大语言模型文本向量化能力对比

3、购买皮鞋

这只皮靴号码大了。那只号码合适。
这只皮靴号码不小，那只更合适。

序号	大语言模型	余弦相似度
1	WizardMath-7B-V1.1-Mistral-7B	0.9549105763435364
2	Mixtral-8x7B	0.9740864038467407
3	Qwen1.5-7B	0.9682160019874573
4	CodeLlama-7B	0.8389745354652405
5	Mistral-7B	0.9343295693397522
6	Chinese-Alpaca-2-7B	0.2915574610233307
7	Yi-chat-9B	0.9639067053794861
8	WizardLM-2-7B	0.9335297346115112
9	WizardMath-7B	0.9227038621902466
10	Chinese-Llama-2	-0.008517207577824593
11	Baichuan2-7B-Chat	0.9351896047592163
12	Meta-Llama-3-8B	0.9342775344848633
13	Llama 2 7b	0.021673066541552544

RAG 的基石：大语言模型文本向量化能力对比

4、猫和狗比较

京哈
蓝猫

序号	大语言模型	余弦相似度
1	WizardLM-2-7B	0.6294927000999451
2	Meta-Llama-3-8B	0.5248777866363525
3	Baichuan2-7B-Chat	0.16035179793834686
4	WizardMath-7B	0.7749522924423218
5	WizardMath-7B-V1.1-Mistral-7B	0.7058834433555603
6	Mistral-7B	0.7224012017250061
7	Chinese-Alpaca-2-7B	0.15339423716068268
8	CodeLlama-7B	0.5445933938026428
9	Chinese-Llama-2	0.19453841447302
10	Qwen1.5-7B	0.576196312903579
11	Mixtral-8x7B	0.7579318881034851
12	Yi-chat-9B	0.557825267319109
13	Llama 2 7b	0.44038861989974976

RAG 的基石：大语言模型文本向量化能力对比

5、English vs 汉语

Please buy a cup for me, plus a car.
他让你帮助买什么东西？

序号	大语言模型	余弦相似度
1	CodeLlama-7B	0.33356600999832153
2	Baichuan2-7B-Chat	0.57098788022995
3	Chinese-Alpaca-2-7B	0.11986920237511999
4	Mixtral-8x7B	-0.30094829201698303
5	Llama 2 7b	-0.005667471326887608
6	Mistral-7B	0.10879462957382202
7	Meta-Llama-3-8B	0.18513920903205872
8	WizardLM-2-7B	0.0768003985285759
9	Qwen1.5-7B	0.713830292224884
10	WizardMath-7B-V1.1-Mistral-7B	0.08147571235895157
11	WizardMath-7B	0.09978950768709183
12	Chinese-Llama-2	-0.029241781681776047
13	Yi-chat-9B	0.43288084864616394

RAG 的基石：大语言模型文本向量化能力对比

6、English: go home

When will you go home?
I bet i can return to my house at 5pm.

序号	大语言模型	余弦相似度
1	Qwen1.5-7B	0.6420629024505615
2	WizardLM-2-7B	0.7205202579498291
3	Meta-Llama-3-8B	0.6660025715827942
4	Chinese-Alpaca-2-7B	0.27626731991767883
5	CodeLlama-7B	0.7119967937469482
6	Yi-chat-9B	0.791547954082489
7	WizardMath-7B	0.7313649654388428
8	Llama 2 7b	-0.04700035974383354
9	Mistral-7B	0.6904579401016235
10	Baichuan2-7B-Chat	0.7068948745727539
11	Mixtral-8x7B	0.9776806831359863
12	Chinese-Llama-2	-0.027995778247714043
13	WizardMath-7B-V1.1-Mistral-7B	0.740699052810669

RAG 的基石：大语言模型文本向量化能力对比

7、处罚规定

在办公室抽烟一次罚款 200 元
有哪些处罚规定

序号	大语言模型	余弦相似度
1	Mixtral-8x7B	0.9126697182655334
2	Mistral-7B	0.7717455625534058
3	Baichuan2-7B-Chat	0.5083956718444824
4	Yi-chat-9B	0.7497902512550354
5	Qwen1.5-7B	0.6885314583778381
6	CodeLlama-7B	0.47839587926864624
7	Chinese-Alpaca-2-7B	0.6295954585075378
8	WizardMath-7B	0.746604323387146
9	Meta-Llama-3-8B	0.7041338682174683
10	WizardMath-7B-V1.1-Mistral-7B	0.7953561544418335
11	Chinese-Llama-2	0.414549857378006
12	WizardLM-2-7B	0.6535733342170715
13	Llama 2 7b	0.6160202026367188

RAG 的基石：大语言模型文本向量化能力对比

8、狗和狗比较

哈士奇
拉布拉多

序号	大语言模型	余弦相似度
1	Baichuan2-7B-Chat	0.5302562713623047
2	WizardMath-7B-V1.1-Mistral-7B	0.8843305110931396
3	Meta-Llama-3-8B	0.7624377012252808
4	Yi-chat-9B	0.9097429513931274
5	WizardLM-2-7B	0.7355867624282837
6	CodeLlama-7B	0.68620365858078
7	WizardMath-7B	0.8989375829696655
8	Llama 2 7b	0.7147634029388428
9	Mixtral-8x7B	0.9531522989273071
10	Qwen1.5-7B	0.8283199667930603
11	Mistral-7B	0.8669305443763733
12	Chinese-Alpaca-2-7B	0.7255567908287048
13	Chinese-Llama-2	0.6491625905036926

RAG 的基石：大语言模型文本向量化能力对比

五、评测结果初步分析

不考虑文本内容，相似度数据汇总对比如下：

	爱好比较	下班注意事项	购买皮鞋	猫和狗比较	English vs 汉语	English: go home	处罚规定	狗和狗比较
Baichuan2-7B-Chat	0.760983169	0.414894044	0.935189605	0.160351798	0.57098788	0.706894875	0.508395672	0.530256271
Chinese-Alpaca-2-7B	0.941870868	0.580999374	0.291557461	0.153394237	0.119869202	0.27626732	0.629595459	0.725556791
Chinese-Llama-2	0.999709904	0.417369723	-0.00851721	0.194538414	-0.02924178	-0.02799578	0.414549857	0.649162591
CodeLlama-7B	0.980571747	0.776706815	0.838974535	0.544593394	0.33356601	0.711996794	0.478395879	0.686203659
Llama 2 7b	0.999773979	0.572599828	0.021673067	0.44038862	-0.00566747	-0.04700036	0.616020203	0.714763403
Meta-Llama-3-8B	0.912088394	0.556744576	0.934277534	0.524877787	0.185139209	0.666002572	0.704133868	0.762437701
Mistral-7B	0.919459522	0.600687325	0.934329569	0.722401202	0.10879463	0.69045794	0.771745563	0.866930544
Mixtral-8x7B	0.972365737	0.858365119	0.974086404	0.757931888	-0.30094829	0.977680683	0.912669718	0.953152299
Qwen1.5-7B	0.87777096	0.515809834	0.968216002	0.576196313	0.713830292	0.642062902	0.688531458	0.828319967
WizardLM-2-7B	0.900076926	0.482626081	0.933529735	0.6294927	0.076800399	0.720520258	0.653573334	0.735586762
WizardMath-7B	0.965944409	0.594430268	0.922703862	0.774952292	0.099789508	0.731364965	0.746604323	0.898937583
WizardMath-7B-V1.1-Mistral-7B	0.972231567	0.60699755	0.954910576	0.705883443	0.081475712	0.740699053	0.795356154	0.884330511
Yi-chat-9B	0.965615511	0.622231841	0.963906705	0.557825267	0.432880849	0.791547954	0.749790251	0.909742951

初步分析，可以发现几个情况：

对于同一个字符串对，不同大语言模型的向量化后结果的余弦相似度存在较大的差异，个别模型明显不稳定，不合群；
在将中文和英文进行余弦相似度比较时，结果差异更大，并且在值空间中基本呈均匀分布，是否表现出其跨语言能力存在巨大差异？是否需要翻译后再进行向量相似度计算？
如果波动很大的不同值都具有合理性，那在实战中我们应该采取多个大语言模型并行进行向量化和向量召回的策略吗？将词的向量加到一起得到句子的向量，这种方法合理吗（比如对否定词如何进行准确的向量化语义表达）？
大语言模型为什么在向量化的能力有如此大的差距？是因为其中文能力不够强，或者对一些特殊的词组没有识别能力，从而影响到其准确对文本进行向量化的能力吗？
Llama 2 在添加中文语料后，Chinese-Llama-2 对相同字符串对的向量相似度的理解上也存在较大差异。这种差异可否作为模型退化的指标？
向量相似度和语义相似度应该存在比较大的差异，应该如何减少这种差异？还是完全利用大语言模型的语义理解能力来生成内容？
如果不同的文本存在确定的语义，是否经过不同的大语言模型向量化后应该有相似的表示？差异的来源在哪？
对不同大语言模型的输出结果，可以画出一个重叠度比较高的区域。在这个区域内有大约 5 个模型相对稳定，各个字符串对的输出比较接近。为什么会出现这种情况？是因为这些大语言模型的能力比较高，已经进化到了一定的程度，还是因为他们在训练的语料上相似？

RAG 的基石：大语言模型文本向量化能力对比

本次评测揭示了当前开源大模型在 Embedding 能力上的显著分化。在实际构建 RAG 系统时，不能盲目依赖单一模型，建议根据具体业务场景（如跨语言、特定领域术语）进行多模型基准测试。同时，需关注模型更新带来的向量空间漂移问题，建立持续的评估机制以确保检索质量。