关键概念
更新时间:2024-05-14
非结构化数据
非结构化数据是指无法存储在预定义格式中或数据模型的数据,如图像、视频、音频等。与结构化数据相比,非结构化数据的处理和分析更加复杂。
向量
向量(vector)是指在数学和物理中用来表示大小和方向的量。它由一组有序的数值组成,这些数值代表了向量在每个坐标轴上的分量。
向量检索
向量检索是在指定向量数据集中,查找与目标向量最相似的结果的过程。相似的向量通常具有相近的原始数据,通过向量检索可以挖掘出原始数据之间的联系。
KNN
KNN (K-Nearest Neighbor Search)指的是最近邻搜索。它的原理是:计算待查询向量与数据库中所有向量之间的距离,然后按照距离从小到大排序,选择距离最近的 K 个向量作为查询结果。KNN 算法的优点是可以保证精确的结果,但是对于大规模的向量数据,计算量会非常大,效率较低。
ANN
ANN(Approximate Nearest Neighbor Search) 表示近似最近邻搜索,是一种用于高维数据空间中快速查找最近邻点的方法。与KNN(精确最近邻搜索——相比,ANN 牺牲了一定的精度以换取更高的搜索速度,因此在处理大规模数据集时具有较高的效率。ANN 方法通常会对数据进行预处理,从而在查询时减少计算距离的次数。ANN 算法的优点是速度快、效率高,但是相对于 KNN 算法来说,其结果可能不够精确。
HNSW
HNSW(Hierarchical Navigable Small World) 是一种基于图的高维向量相似性搜索算法。通过构建一张图来表示向量之间的相似度关系,并使用一些优化策略来加速搜索过程。