创建知识库
概述
【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。
- 登录百度智能云千帆-AppBuilder。
- 在左侧菜单栏中,选择【个人空间-知识库】,进入该页面后,可查看到当前所有知识库列表,当前可支持创建100个知识库。[去控制台创建]
创建知识库
【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。点击知识库列表上方的【创建知识库】按钮,在展开的页面中填写新知识库的各项信息。
1. 定义知识库基本信息
【知识库定义】定义知识库的基本信息。
字段 | 填写注意事项 | 案例 |
---|---|---|
知识库名称 | 知识库名称仅支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.)(1~50字符) | 相机使用说明书 |
知识库描述 | 描述这个知识库的内容和用途 | 主要包括相机的使用说明,为用户介绍相机的保修信息和服务条款、安全注意事项、基本操作、菜单设置、拍摄技巧等。 |
2. 托管切片
【托管切片】选择切片向量模型与托管索引资源。
2.1 向量模型
将文本转化为用数值表示的向量形式。用于知识导入时的向量转化,以及知识问答过程的语义向量检索。单文件支持最大字数为100w字,超出部分将不会转化为向量。
- 当前向量模型默认为multilingual-embedding-AppBuilder,支持的语言为:中文(简体、繁体)、英文、马来语、泰语、日语。多语言RAG应用可根据用户语言,使用对应语言答复。
- 多语言RAG的知识库语言支持中文和英语两种语言。模型答复时可根据用户语言自动转换。
- 目前需要用户通过提交工单申请开通白名单才能使用多语言RAG功能。
2.2 切片托管资源
资源分类 | 适用场景 |
---|---|
AppBuilder资源 | 不同用户之间共享资源,支持小规模的文件切片索引 |
百度ElasticSearch(BES)资源 (没有私有化服务;可能有混合云服务,需要付费使用) |
可独享资源,实现数据隔离,支持大规模的文件切片索引,索引性能更高,可以理解为有一块独立的资源空间 |
百度向量数据库VectorDB资源 | 支持百亿级向量规模托管、具备高性能访问和弹性高可用特性的向量数据库,适用于大规模向量数据检索、高性能应用及高可用性要求场景 |
2.2.1 使用百度ElasticSearch(BES)资源
- 若未开通 BES,请先开通 BES 资源(https://cloud.baidu.com/product/bes.html),并创建,并创建) ElasticSearch 集群实例。
- 创建新 ElasticSearch 集群实例:设置BES集群名称及管理员密码,并填入知识库创建对应的表单位置。
- 调用已创建的 ElasticSearch 集群实例:点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。
2.2.2 使用百度向量数据库VectorDB
- 若未开通VDB,请先开通VDB资源(https://cloud.baidu.com/product/vdb.html?track=sousuo),并创建百度VectorDB实例。,并创建百度VectorDB实例。)
- 新用户可点击“创建试用资源”,创建试用VDB实例。
资源创建成功后会自动跳转至资源登陆界面。
- 若已开通VDB, 可直接选择对应实例进行登陆。
3. 导入文件源
【选择导入类型】可以选择按文件类型导入和按模板导入。
3.1 按文件类型导入
【选择文件类型】可选择导入文件类型和导入方式。支持选择文本文档数据、知识问答数据和url导入数据,满足您各种场景需要!
文件源导入类型 | 特点 | 举例 |
---|---|---|
导入文本文档数据 | 根据上传的文本文件直接进行分段处理 | 适合各类通用场景 |
导入表格型知识数据 | 读取表格中的文本信息,按行构建知识切片。 | 适用于整理好的FAQ问答对数据、多列索引表格等含有长文的表格(表格单元格中存储了较长的文本内容) |
读取网页数据源 | 读取输入的网页链接,解析网页内容并导入知识库。支持设置自动更新 | 通过问答对进行知识干预,为用户提供更可控的问答结果 |
文本文档类导入说明如下:
导入来源 | 特点 |
---|---|
本地上传 | 1. 六种格式:支持.doc,.txt,.docx,.pdf, .ppt, .pptx六种格式; 2. 有限容量:txt 文件不能超过10MB, docx、pdf、doc 文件不能超过50MB,仅处理前1000页内容(txt 文件2000字符为一页,文件不超过200万字符) |
百度对象存储(BOS-公有云可用,私有化用minio仍在开发中) | 1. 批量导入:配合BES使用时,不限制文件导入数量,支持按文件夹导入 2. 无限容量:提供无限容量,可拓展和可靠的存储服务 3. 付费功能 |
表格类知识数据导入说明如下:
导入来源 | 特点 |
---|---|
本地上传 | 1. 五种格式:支持.xlsx,.xls,.docx,.csv, .jsonL五种格式; 2. 五种编码:支持UTF-8、GBK、GB2312、GB18030、ASCII五种编码格式 3. 有限容量:单个文件大小不超过100MB,不超过10万行,20列,每行不超过15万字,且文件中最多支持一个sheet工作表(超出范围的内容会被自动忽略) |
读取网页数据源解释如下:
解析网页内容 | 解析子网页及网页内容 | |
---|---|---|
描述 | 仅支持解析所上传URL的网页数据 | 将上传的URL作为根目录,自动解析其所含全部子目录的网页数据 |
URL解析方式 | 1.逐个上传: a.支持逐个上传,最多支持添加10条URL; b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新; c.也可以在上传框下面【一键设置更新频率】进行一键设置 2.批量上传:可以通过xlsx文件填写URL实现批量上传(建议使用xlsx模版填写URL |
1.单个根目录上传 a.对单个根目录进行解析 b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新 2.根目录批量解析 a.xlsx文件填写url作为根目录进行批量上传,建议使用AppBuilder提供的xlsx模版填写 b.只支持上传一个文件,单个文件不超过15MB 注意:最多支持解析800条子目录,若通过自动解析子网页的方式导入知识库,子网页数目超过知识库容量800个后多余部分不会被导入知识库。 |
举例 | 通过上传百度百科链接 https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683 可以实现对该页面内容的提取和动态追踪 |
使用同样一个百度百科链接 https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683 ,由于该链接内还包含其他的跳转链接,可以同时解析处包含链接的内容 |
3.2 按模版导入
可选择按简历文档,ppt幻灯片,论文文档,结构化问答对模版导入。系统会按照模版结构生成切片。
可选模板 | 具体解释 | 适用场景 |
---|---|---|
简历文档 | 简历模版将文件解析为结构化字段存储在一个切片中 |
支持上传doc、docx、pdf格式文件 |
PPT幻灯片 | 幻灯片模版将文件按页解析,每一页幻灯片内容分别存储在一个切片中 |
支持上传ppt、pptx格式文件 |
论文文档 | 论文模版根据论文结构将文件解析为对应结构切片,如标题、摘要、引言等结构 |
支持doc、docx、pdf格式文件 |
结构化问答对 | 问答对模版将文档识别解析为问答对切片,每一个问答对存储在一个切片,建议问答对间以空行进行分隔 | 支持doc、docx、pdf、txt格式文件 |
文档导入说明:
说明 | 格式要求 | |
---|---|---|
本地上传 | 上传本地数据并导入 AppBuilder 共享存储服务,支持小规模文件导入 | 1.单次上传文档数量为100个 2.支持.doc/.docx/.pdf三种格式 3.pdf文件不能超过500MB且不能超过3000页,其他类型文件不能超过50MB且不能超过1000页 |
百度对象储存(BOS) | 导入 BOS 中的数据,支持导入大规模数据,满足企业安全合规要求 | 1.支持不超过500MB且不超过3000页的.pdf文件、不超过50MB且不超过1000页的.doc/.docx文件。 |
4.选择配置
【选择配置】上传文档后,刻在配置选择中根据需求配置解析策略,切片策略和知识增强以提升知识问答效果。
导入文本文档数据 | 导入表格型知识数据 | 读取网页数据源 | |
---|---|---|---|
解析策略 | 支持 | 不需要配置 | 不支持 |
切片策略 | 支持 | 不需要配置 | 支持 |
知识增强 | 支持 | 支持 | 支持 |
(1)解析策略: 默认开启文字提取策略,可以选图像文字识别(OCR)、版面分析和文档图片解析策略。
解析策略配置模块解释如下:
配置方法 | 解释 | 适用场景 | 补充说明 |
---|---|---|---|
文字提取 | 基于规则的文档文字提取 | 默认开启 | |
图像文字识别(OCR) | 当文档中包含图像等内容时,可以开启该功能,打开后可识别图像、扫描件信息。关闭时,提高文档解析速度。 | 适用于图片、扫描件文档 | |
版面分析 | 当文档存在层级结构时,可以开启该功能,打开后会增强对文档层级结构的理解能力,检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时,启用该功能时,可以开启【切片策略-自定义切片-关联标题及子标题】功能。关闭时,提高文档解析速度。 | 文档存在层级结构时建议开启 | |
文档图片解析 | 当文档中包含图片,且希望能够在问答中准确召回图片时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图片进行解析,并将相关图片关联在文字切片下方。关闭时,提高文档解析速度。 | 适用于需要对文档中图片进行召回的场景。 | 文档图片解析的开启依赖图像文字识别(OCR)、版面分析开启,若图像文字识别(OCR)、版面分析策略关闭,则文档图片解析不可选中。 |
图表解析 | 当文档中包含图表,且希望能够在问答中检索召回图表中包含信息时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图表进行解析,并将相关图表关联在文字切片下方。关闭时,提高文档解析速度。 | 适用于需要对文档中的图表信息进行检索召回的场景。 | 图表解析的开启依赖文档图片解析开启。若文档图片关闭,则图片解析不可选中。 |
表格深度解析 | 当文档中包含跨行跨列,超长类等复杂表格,且希望准确识别图表结构,召回图表信息时,可以开启该功能。启用该功能时,将在文档上传阶段调用表格深度解析服务以优化解析效果。关闭时,提高文档解析速度。 | 适用于文档中存在跨行跨列,超长类复杂表格,且需要准确识别的场景。 | 表格深度解析的开启依赖版面分析开启。若版面分析关闭,侧表格深度解析不可选中。 |
(2)切片策略:
解析策略配置模块解释如下:
配置方法 | 解释 | 适用场景 |
---|---|---|
默认切分 | 根据文档自动设置切分规则 | 适合具备简单结构的文本,如论文、新闻等 |
自定义切片 | 可以配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。(详细解释见下) | 文本具有特定的结构或需要特别关注某些信息,如药物说明书 |
整文件切片 | 将整份文档的解析内容放入同一个切片中,开启后,会增加文档的处理时长和资源消耗 | 适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字 |
自定义切片相关概念解释如下:
功能 | 解释 |
---|---|
标识符 | 1. 支持按照所选的标识符切分文本时,可以选择的标识符有:中文句号、中文逗号、中文问号、英文句号、英文叹号、英文问号、按页切分、自定义正则表达式。 2. 当选择自定义正则表达式时,需要填写表达式内容和包含策略 a. 表达式:通过正则表达式,自定义可匹配的分隔符。例如: I. [。!?] :任意句号,叹号,问号: II. (第[\d一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾]{1,}章): 第x章 b. 包含策略:对正则匹配的分隔符,设置包含的位置。例如当匹配到 “第x章” 时,可选: I. 前序切片:将 “第x章” 拼接至前序切片末尾 II. 后续切片:将“第x章” 拼接至后续切片开头 III. 匹配后丢弃:切分后,将“第x章”删除 IV.注:当表达式涉及多段分隔符时,此选项功能可能不生效 |
切片最大长度 | 设置每个切片内的字符数上限,确保切片的最大长度与模型所支持的上下文长度范围相匹配,以确保数据处理的准确性和效率。 1. 长度越大,召回的上下文越丰富。 2. 长度越小,召回的信息越精简。 3.当前切片最大长度默认为600字,最高上限为15万字,但需确保填写的切片最大长度不超过模型上下文的数量限制。 |
切片重叠最大字数占比 | 是指:当前切片与前后切片的 “重叠部分字符数” 相较于设置的 “切片最大长度” 的比例。如果重叠部分存在不完整的句子,则此切片舍去该句。占比越大,相邻切片重叠字符越多, 占比越小,重叠字符越少。 例如,如果文本是“我爱学习我爱生活”,假设我们按4个字符进行切片,重叠比例为3/4或75%,则第一个切片是“我爱学习”,第二个切片是“爱学习我”,第三个切片是“学习我爱”,这些切片之间的重叠部分字符数是“爱学习”或“学习我”3个字符。通过这种方式,可以确保每个切片之间有指定的重叠字符数,从而保持文本的连贯性。同时,如果句子“我爱学习并享受这个过程”被切割成“我爱学习”和“并享受这个”,由于“并享受这个”是不完整的,这个切片可能会被舍弃或与其他切片合并。 注:该功能在选择自定义正则表达式标识符时不可用。 |
关联信息 | 1. 关联标题及子标题: 开启后,将在段落切片中补充正文标题或子标题信息,在检索标题相关信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。 2. 关联文件名: 开启后,将在段落切片中补充文件名信息,在检索文件名信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。 |
整文件切分:
该切片策略会将整份文档的解析内容放入同一个切片中,适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字。开启后,会增加文档的处理时长和资源消耗。
(3)知识增强
在检索问答时,系统通过检索知识点召回对应的切片。开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。对于文本文档类和网页数据源的知识切片,知识增强将对每个切片生成对应的知识点,对于表格类知识数据,表格中的一行为一个切片,仅对设置的索引列内容生成对应的知识点。
开启知识增强后,会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。
增强方法 | 解释 |
---|---|
问题生成 | 默认开启。根据切片内容生成问题作为知识点,提升知识点和用户检索文本的相似度,进而提升知识召回成功率。 |
段落概要 | 根据切片内容生成段落概要作为知识点,提升知识召回成功率。开启后,增加文档的处理时长和资源消耗。 |
三元组知识抽取 | 对切片内容抽取三元组信息作为知识点,如:“百度发布新品”--- <百度,发布,新品>。开启后,提升知识召回成功率,同时会增加文档的处理时长和资源消耗。 |
注意事项:知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。