产品优势
更新时间:2024-10-30
VectorDB是百度完全自研的分布式向量数据库产品,旨在为用户提供高效可靠的向量数据处理解决方案。数据库采用分布式架构,具有高可用、高可靠、高性能、强扩展和安全特性,能轻松扩展以支持海量高维向量数据存储和检索,支持包括百度文心在内的主流大语言模型框架集成,适用于各种行业和场景与大模型相关的应用开发,如知识库、RAG类应用、AISearch类应用、内容管理系统、图像识别等。
丰富的检索场景
- 支持单向量检索、多向量检索、带标量过滤条件的向量检索
- 支持全文检索,自带百度NLP出品的中英文混合分词器,分词效果突出,性能强大
- 支持基于各类型检索的混合检索,支持RRF及带权重的融合排序
- 支持传统标量主键点查、Select查询等
高性能
- 支持多种高性能向量索引和检索算法,包括图结构算法HNSW、HNSW_PQ和HNSW_SQ, 百度自研的倒排结构PUCK系列(对标IVF系列),FLAT索引等
- 毫秒级向量检索时延
- 架构和引擎多方面工程优化,向量检索性能远高于开源竞品,全文检索性能也高于ES
灵活好用
- 支持多字段构成联合主键,给表结构设计带来很大的灵活性
- 自持自增主键,支持分区键,
- 数据类型丰富,支持动态字段(自动根据写入请求推导并建立新字段)
- 单行支持多个向量字段
- 自动化根据策略构建向量索引,大大简化DBA的负担
- 全实时:写入成功后数据立即对任何查询/检索操作可见
- HTTP/HTTPS API、SDK(Python、Go、Java、Rust、Node.js)
安全可信赖
- 完整的多用户与RBAC权限体系
- 支持证书和HTTPS
- 支持数据透明加密
- 支持全量备份与恢复
海量规模
- 分布式架构,可扩展至上千节点规模和十万级分片数量
- 单表支持百亿级向量
- 支持4096维的高维向量
弹性&高可用
- 内核层面自动化伸缩与均衡,产品层面一键横向纵向扩缩容
- 基于Raft协议的高可用架构,单AZ产品提供99.95%可用性,RPO=0,RTO<30s
- 产品内建自动化管理和监控
支持私有化
- 基于DBStack的私有化架构,全栈支持跨AZ高可用
- 支持物理机部署,支持虚拟机部署,支持本地盘和块存储盘
- 支持国产化信创环境(硬件:海光、鲲鹏等;软件:麒麟、统信等;其它:国密SM4算法)
- 私有化产品能力完全对标公有云
生态丰富
- 已支持从Milvus离线迁移数据过来
- 已支持千帆AppBuilder、LangChain、LlamaIndex、Dify等
- 提供AI Search SDK,支持高层次RAG框架封装,集成调用文心Embedding模型