向量数据库：高效检索与大语言模型融合

简介

在海量数据中快速找到相似项是许多智能应用的核心需求，向量数据库正是解决这一问题的关键技术之一。

什么是向量数据库？

向量数据库架构示意图

在数学中，向量是一个有序的数值序列。例如，二维平面中的一个点的位置可以用两个实数的向量（x, y）来表示。同理，三维空间中的点可以用 (x, y, z) 表示。而在计算机科学中，这些点可以表示为事务的特征或属性，向量数据库就是用来存储这些点的特征或属性的。

向量数据的来源

我们刚才说了，向量数据库存储的这些'点'其实是事务的特征，那么具体是指什么呢？

假设我们是一个犬类动物爱好者，我们可以通过体型大小、毛发长度、鼻子长短等特征为狗狗分类。如果将犬类的体型大小、毛发长度用二维向量记录下来，就是下面这个样子：

二维向量示例

X 轴表示犬类体型，取值范围从大到小为 0 到 1。

再加上毛发长度的 Y 轴，就是下面的样子：

二维坐标示例

接下来，我们再延伸到三维坐标系，将犬类鼻子的长短记录到 Z 轴，便得到了下面的三维向量数据：

三维向量示例

于是乎我们就得到了基于犬类体型大小、毛发长度等鼻子长短等特征的三维向量特征点，也就是 x、y、z 轴的坐标，这些数据便是向量数据，存储到向量数据库。

向量数据库有了这些数据，便可以提供向我们的向量检索。例如，我们想养一只与哈士奇相似的狗，那么会推荐金毛（0.6，0.65，0.66），而不会推荐泰迪（0.1，0.45，0.23）。

更高维度的向量数据

当然了，我们不能只根据三个特征就推荐你养哪只狗狗，很明显这样不够精确。那么我们可以将犬类更多的特征，例如眼睛大小、服从性、攻击性等用向量数据记录下来。

也许你很难想象这些数据记录到四维、五维空间会是什么样子，但这不重要，我们只需要知道这些特征换成向量数据就是在向后面追加数字即可，例如：（0.53，0.4，0.75，0.11，0.23，……）

高维向量示意

我们可以用这种方式表示所有事物，不管是具象的还是抽象的，例如，一段话、一张照片、喜怒哀乐、悲欢离合。而且数据的维度越高，描述的数据就越精确。

OpenAI Embedding 维度

向量数据库：高效检索与大语言模型融合

简介

什么是向量数据库？

向量数据的来源

更高维度的向量数据

更多推荐文章

相关免费在线工具

向量数据的检索算法

ANN 算法

Flat

k-means

LSH

HNSW

其他算法

ANN-基准

小结

向量数据库产品

向量数据库与 LLMs 的融合

市场前景

向量数据库与 LLM 的对接

分词（Tokenization）

嵌入（Embeddings）

对接 LLM

更多的 Embeddings

高级实践：混合检索与重排序

总结与展望

生产环境注意事项

更多推荐文章

相关免费在线工具

向量数据库：高效检索与大语言模型融合

简介

什么是向量数据库？

向量数据的来源

更高维度的向量数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

向量数据的检索算法

ANN 算法

Flat

k-means

LSH

HNSW

其他算法

ANN-基准

小结

向量数据库产品

向量数据库与 LLMs 的融合

市场前景

向量数据库与 LLM 的对接

分词（Tokenization）

嵌入（Embeddings）

对接 LLM

更多的 Embeddings

高级实践：混合检索与重排序

总结与展望

生产环境注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具