人工智能
比较可扩展矢量搜索的量化技术
想象一下,基于更深层次的洞察而非仅仅依靠关键词来寻找相似事物。这就是矢量数据库和相似性搜索的用武之地。 矢量数据库 启用向量相似性搜索。它使用向量之间的距离来查找搜索查询中的数据点。
然而,高维数据中的相似性搜索可能很慢并且占用资源。输入量化技术!它们在优化矢量数据库中的数据存储和加速数据检索方面发挥着重要作用。
本文探讨了各种量化技术、它们的类型以及现实世界的用例。
什么是量化及其工作原理?
量化是将连续数据转换为离散数据点的过程。特别是当您处理数十亿级的参数时,量化对于管理和处理至关重要。在向量数据库中,量化将高维数据转换为压缩空间,同时保留重要特征和向量距离。
量化显着减少内存瓶颈并提高存储效率。
量化过程包括三个关键过程:
1. 压缩高维向量
在量化中,我们使用码本生成、特征工程和编码等技术。这些技术将高维向量嵌入压缩到低维子空间中。换句话说,向量被分成许多子向量。矢量嵌入是音频、图像、视频、文本或信号数据的数字表示,可以更轻松地进行处理。
2. 映射到离散值
此步骤涉及将低维子向量映射到离散值。该映射进一步减少了每个子向量的位数。
3. 压缩向量存储
最后,将子向量的映射离散值放入原始向量的数据库中。压缩数据以更少的位数表示相同的信息,从而优化了其存储。
矢量数据库量化的好处
量化提供了一系列好处,从而改进了计算并减少了内存占用。
1.高效可扩展向量搜索
量化通过减少比较计算成本来优化矢量搜索。因此,矢量搜索需要更少的资源,提高其整体效率。
2.内存优化
量化向量允许您在同一空间内存储更多数据。此外,数据索引和搜索也得到了优化。
3。 速度
高效的存储和检索带来更快的计算。减少维度可以加快处理速度,包括数据操作、查询和预测。
一些流行的矢量数据库,例如 奎德兰特, 松球和 米尔武斯 提供具有不同用例的各种量化技术。
使用案例
量化能够减少数据大小,同时保留重要信息,这使其成为有用的资产。
让我们更深入地了解它的一些应用。
1. 图像视频处理
图像和视频数据具有更广泛的参数,显着增加了计算复杂性和内存占用。 量化 压缩数据而不丢失重要细节,从而实现高效的存储和处理。这可以加快图像和视频的搜索速度。
2. 机器学习模型压缩
在大数据集上训练人工智能模型是一项艰巨的任务。量化有助于减少 模型大小和复杂性 而不影响其效率。
3. 信号处理
信号数据代表连续数据点,例如 GPS 或监控录像。量化将数据映射为离散值,从而实现更快的存储和分析。此外,高效的存储和分析可加快搜索操作,从而实现更快的信号比较。
不同的量化技术
虽然量化可以无缝处理数十亿级的参数,但它存在不可逆转的信息丢失的风险。然而,在可接受的信息丢失和压缩之间找到适当的平衡可以提高效率。
每种量化技术都有优点和缺点。在选择之前,您应该了解压缩要求以及每种技术的优点和局限性。
1. 二值量化
二值量化是一种将所有向量嵌入转换为0或1的方法。如果一个值大于0,则将其映射为1,否则将其标记为0。因此,它将高维数据转换为明显低维的数据更快的相似性搜索。
公式
公式为:

二进制量化公式。图片由作者提供。
下面是二进制量化如何作用于向量的示例。

二进制量化的图形表示。图片由作者提供。
我们的强项
- 最快的搜索,超越标量和乘积量化技术。
- 将内存占用量减少 32 倍。
限制
- 信息丢失率较高。
- 向量分量要求均值大约等于零。
- 由于信息丢失较多,低维数据的性能较差。
- 为了获得最佳结果,需要重新评分。
2. 标量量化
标量量化将浮点数或十进制数转换为整数。首先确定每个维度的最小值和最大值。然后将识别出的范围分为几个箱。最后,每个维度中的每个值都分配给一个容器。
量化向量的精度或细节水平取决于箱的数量。更多的分箱可以捕获更精细的细节,从而获得更高的准确度。因此,矢量搜索的准确性还取决于 bin 的数量。
公式
公式为:

标量量化公式。图片由作者提供。
下面是标量量化如何作用于向量的示例。

标量量化的图形表示。图片由作者提供。
我们的强项
- 特性 记忆 优化。
- 信息损失小。
- 部分可逆过程。
- 快速压缩。
- 由于信息损失小,可实现高效的可扩展搜索。
限制
- 搜索质量略有下降。
- 低维向量更容易受到信息丢失的影响,因为每个数据点都携带重要信息。
3. 产品量化
乘积量化将向量划分为子向量。对于每个部分,中心点或质心是使用以下公式计算的 聚类算法。它们最近的质心代表每个子向量。
产品量化中的相似性搜索通过将搜索向量划分为相同数量的子向量来工作。然后,按照从每个子向量的质心到每个查询子向量的距离的升序创建相似结果的列表。由于矢量搜索过程比较查询子矢量与量化矢量质心的距离,因此搜索结果不太准确。然而,乘积量化加速了相似性搜索过程,并且可以通过增加子向量的数量来实现更高的精度。
公式
寻找质心是一个迭代过程。它使用每个数据点到其质心之间的欧几里德距离重新计算,直到收敛。 n维空间中的欧氏距离的公式为:

乘积量化公式。图片由作者提供。
以下是乘积量化如何作用于向量的示例。

产品量化的图形表示。图片由作者提供。
我们的强项
- 最高压缩比。
- 比其他技术更好的存储效率。
限制
- 不适合低维向量。
- 资源密集型压缩。
矢量数据库如 奎德兰特 Weaviate 提供产品量化。
选择正确的量化方法
每种量化方法都有其优点和缺点。选择正确的方法取决于以下因素,包括但不限于:
- 数据维度
- 压缩精度权衡
- 效率要求
- 资源限制。
请考虑下面的比较图,以更好地了解哪种量化技术适合您的用例。该图表突出显示了每种量化方法的准确性、速度和压缩因子。

图片来源:Qdrant
从存储优化到更快的搜索,量化减轻了存储数十亿级参数的挑战。然而,提前了解要求和权衡对于成功实施至关重要。
有关最新趋势和技术的更多信息,请访问 联合人工智能.




