沧百科 手机版
您的位置: 首页 > 常识 >

向量的点乘和叉乘有什么区别(大模型检索增强生成(RAG):初识向量数据库)

100次浏览     发布时间:2024-11-09 09:53:35    

【原创内容】

背景:图、文、音等非结构化数据已经通过Embedding Model向量化,下面需要把非结构化数据进行embedding存到向量数据库中然后进行检索。

1 功能

通过向量相似度搜索,实现向量检索服务

2 向量数据库的应用场景

  • 大规模知识库

企业的私域数据存储在向量数据库中可构建外部知识库,帮助企业更好地管理和利用自己的数据资源。

  • 推荐系统

向量数据库会基于用户特征进行向量存储与检索,并返回与用户可能感兴趣的物品作为推荐结果。

  • 问答系统

向量数据库会基于问题信息进行向量存储与检索,并返回最相关的问题与对应的答案。

  • 文本/图像检索

向量数据库对输入的图像和文本信息进行向量存储与检索,会找到最匹配输入信息的文本或图像结果。

3 向量相似度计算方法

(1)余弦相似度

(2)内积

(3)欧氏距离(欧几里得距离)

(4)曼哈顿距离

注意:

内积与外积的区别:向量内积(点乘)和外积(叉乘),外积得到的是多维的;

内积与余弦相似度:

1. 从上面公式看,余弦相似性 其实是 内积的 归一化;

2. 余弦相似性只考虑 向量夹角大小,而内积不仅考虑向量夹角大小,也考虑了向量的长度差;

重要性:选择合适的距离度量有助于显著提高分类和聚类性能。根据输入数据格式,选择特定的相似度以获得最佳性能。

4 主流向量数据库

  • 闭源:Pinecone
  • 开源:Milvus、Weaviate、Qdrant、Elastic、Chroma

在几个主流的向量数据库中,milvus在大规模、检索性能、社区影响力等方面都具备绝对优势,其分布式架构也更Match下一代存储的理念。其优势主要包括:

  • (1)支持 10 亿级向量数据
  • (2)查询插入分离
  • (3)动态 Segment 替换( vs. 静态数据 Sharding)
  • (3)云原生
  • (4)多副本
  • (5)计算存储分离

详细对比: