对象存储(BOS)与向量检索(BES):企业级知识库创建
一、对象存储 BOS 是什么?
在Agent知识问答应用场景下,面对企业海量的知识问答数据源,百度智能云对象存储 BOS (Baidu Object Storage) 提供稳定、安全、高效以及高扩展的存储服务,你可以创建个人 BOS 并将知识库文件存储在个人 BOS 资源下,在知识库中导入 BOS 中的文件数据。使用 BOS 存储文件有以下几点优势:
- 批量导入:
使用私有 BOS 存储,配合 BES 使用将不限制文件导入数量。
- 数据安全:
使用私有百度对象存储资源,提供安全可靠的传输机制及资源访问控制,满足企业数据安全与合规要求。
- 可扩展:
支持存储容量弹性扩展。
更多 BOS 产品介绍请参考:对象存储BOS产品文档
二、检索分析服务 BES 是什么?
在 Agent 知识问答应用场景下,知识问答中的向量检索服务可以使用私人独享 BES 服务。百度 Elasticsearch(BES)是基于开源 Elasticsearch 的检索分析服务,提供 Elasticsearch、Kibana、Logstash 等开源全托管的产品服务。具备冷热分离、向量检索等产品特性。提供低成本、高性能和安全可靠的服务。使用BES服务有以下几点优势:
- 文件规模:
支持检索更大的文件数量规模,配合 BOS 使用将不限制上传文档数量。
- 安全隔离:
拥有独立集群,自由管理,资源隔离,数据安全。
- 高性能检索:
依托开源分布式检索分析引擎 Elasticsearch,为用户提供强大的数据检索与分析功能。百度专家团队深度调优,确保集群性能。
更多 BES 产品介绍请参考:百度BES检索分析服务产品文档
三、如何创建企业级知识库?
1、准备工作
1)创建 BOS 服务
- 创建 Bucket:使用 BOS 服务,用户需进入 BOS 创建页面先创建一个存储空间,即 Bucket。Bucket 创建具体注意事项与创建流程请参照 Bucket 创建指南。
- 实例创建完成后,向 Bucket 中上传需要在知识库中使用的文件。
- 创建完成后返回同账号下的 AppBuilder 即可使用BOS服务。
2)创建独享 BES 资源
- 评估所需的集群资源:使用百度智能云 Elasticsearch 前,需要优先结合业务需求和所存数据,评估集群所需的资源容量,包括磁盘容量、单机规格、shard 大小和数量等。详细的评估方式请参照集群资源评估指南。
- BES集群资源创建:进入 BES 集群创建页面,创建集群中所需的配置项,包括付费及地域、基础配置、网络与可用区、节点配置和其他配置,完成创建后确认订单并在线支付后即可成功开通服务。注意,请使用和 Appbuilder 相同的百度云账户进行创建。详细创建流程请参照 BES 集群资源创建指南。
- 创建集群资源时,选择的付费及地域、设置的集群名称。管理员名称及密码是关键信息,在 AppBuilder 调用 BES 集群资源时需填写。
- 完成后返回 AppBuilder 即可使用同账号下的 BES 资源。
2、创建企业级知识库
企业级知识库的创建四大步骤是:
1、知识库定义:填写知识库名称及知识库描述。
2、切片托管:选择知识切片的托管及检索资源。
3、文件源导入:选择要导入文件的格式和文件导入来源。
4、选择配置:配置具体知识库文件的解析及切片策略。
1、知识库定义
- 进入个人空间-知识库,点击创建知识库,进入知识库创建页面。
- 填写知识库名称与描述,方便知识库管理。
2、切片托管:选择独享BES资源
- 切片托管主要负责知识文档切片处理后的切片存储、大模型问答时的切片检索召回工作。
- 选择百度 ElasticSearch 独享资源,即可支持大规模的文件处理和检索。独享资源提供数据隔离,保障数据安全。同时,支持弹性扩容的高性能体验。选择 AppBuilder 共享资源会限制创建的知识库数量,最多 100 个。其中每个知识库最多 800 个文件。注意,当创建知识库时选择BES资源,后续在该知识库上传文件均自动使用BES资源。
- 选择一个创建好的 BES 集群,并填写地域、BES 集群名称、管理员名称、管理员密码信息。相关信息进入 BES 产品页面找到已创建的BES集群资源,点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。
3、文件源导入
1)选择文件类型
- 支持导入文本文档类数据、结构化数据,同时支持通过网页链接解析并上传网页数据。
2)选择导入BOS集群数据
- 知识库支持直接从本地上传文件,或从创建好的百度对象存储(BOS)实例中上传文件。
- 选择BOS服务作为文件的存储及导入源,可支持向知识库导入更大规模的数据,满足企业用户数据安全合规要求。创建知识库时选择BOS导入文件,后续在该知识库上传文件时依然支持选择从本地上传或从BOS上传。
- 选择创建好的Bucket地址,即可通过文件夹导入或文件导入的方式选择要导入知识库的文件。
- BOS 配合 BES 使用时,单次导入文件的数量没有上限限制。
4、选择配置
- 源文件进入知识库要经历解析、切片、知识增强等步骤,以提升大模型对知识的理解从而优化知识库问答效果。
- 用户可以根据自己的文件类型、业务特点灵活配置解析策略、知识增强方法。具体配置方法请参照知识库配置。
完成以上步骤,一个企业级、支持大规模文件存储及分布式检索的知识库就创建好了,快来试试吧!