【原创内容】
背景:图、文、音等非结构化数据已经通过Embedding Model向量化,下面需要把非结构化数据进行embedding存到向量数据库中然后进行检索。
通过向量相似度搜索,实现向量检索服务
企业的私域数据存储在向量数据库中可构建外部知识库,帮助企业更好地管理和利用自己的数据资源。
向量数据库会基于用户特征进行向量存储与检索,并返回与用户可能感兴趣的物品作为推荐结果。
向量数据库会基于问题信息进行向量存储与检索,并返回最相关的问题与对应的答案。
向量数据库对输入的图像和文本信息进行向量存储与检索,会找到最匹配输入信息的文本或图像结果。
(1)余弦相似度
(2)内积
(3)欧氏距离(欧几里得距离)
(4)曼哈顿距离
注意:
内积与外积的区别:向量内积(点乘)和外积(叉乘),外积得到的是多维的;
内积与余弦相似度:
1. 从上面公式看,余弦相似性 其实是 内积的 归一化;
2. 余弦相似性只考虑 向量夹角大小,而内积不仅考虑向量夹角大小,也考虑了向量的长度差;
重要性:选择合适的距离度量有助于显著提高分类和聚类性能。根据输入数据格式,选择特定的相似度以获得最佳性能。
在几个主流的向量数据库中,milvus在大规模、检索性能、社区影响力等方面都具备绝对优势,其分布式架构也更Match下一代存储的理念。其优势主要包括:
详细对比: