创建知识库
概述
【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。
- 登录百度智能云千帆-AppBuilder。
- 在左侧菜单栏中,选择【个人空间-知识库】,进入该页面后,可查看到当前所有知识库列表,当前可支持创建100个知识库,创建一个知识库。
1. 创建知识库
【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。点击知识库列表上方的【创建知识库】按钮,在展开的页面中填写新知识库的各项信息。
1.1. 定义知识库基本信息
【知识库定义】定义知识库的基本信息。
字段 | 填写注意事项 | 案例 |
---|---|---|
知识库名称 | 知识库名称仅支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.)(1~50字符) | 相机使用说明书 |
知识库描述 | 描述这个知识库的内容和用途 | 主要包括相机的使用说明,为用户介绍相机的保修信息和服务条款、安全注意事项、基本操作、菜单设置、拍摄技巧等。 |
1.2. 选择切片托管资源
【切片托管】选择切片托管、索引资源。
资源分类 | 适用场景 |
---|---|
AppBuilder资源 | 不同用户之间共享资源,支持小规模的文件切片索引 |
百度ElasticSearch(BES)资源 (没有私有化服务;可能有混合云服务,需要付费使用) |
可独享资源,实现数据隔离,支持大规模的文件切片索引,索引性能更高,可以理解为有一块独立的资源空间 |
- 若未开通 BES,请先开通 BES 资源(https://cloud.baidu.com/product/bes.html),并创建 ElasticSearch 集群实例。
- 创建新 ElasticSearch 集群实例:设置BES集群名称及管理员密码,并填入知识库创建对应的表单位置。
- 调用已创建的 ElasticSearch 集群实例:点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。
1.3. 文件源导入
【选择文件类型】可选择导入文件类型和导入方式。支持选择文本文档数据、知识问答数据和url导入数据,满足您各种场景需要!
文件源导入类型 | 特点 | 举例 |
---|---|---|
导入文本文档数据 | 根据上传的文本文件直接进行分段处理 | 适合各类通用场景 |
导入表格型知识数据 | 读取表格中的文本信息,按行构建知识切片。 | 适用于整理好的FAQ问答对数据、多列索引表格等含有长文的表格(表格单元格中存储了较长的文本内容) |
读取网页数据源 | 读取输入的网页链接,解析网页内容并导入知识库。支持设置自动更新 | 通过问答对进行知识干预,为用户提供更可控的问答结果 |
文本文档类导入说明如下:
导入来源 | 特点 |
---|---|
本地上传 | 1. 四种格式:支持.doc,.txt,.docx,.pdf, .ppt, .pptx四种格式; 2. 有限容量:txt 文件不能超过10MB, docx、pdf、doc 文件不能超过50MB,仅处理前1000页内容(txt 文件2000字符为一页,文件不超过200万字符) |
百度对象存储(BOS-公有云可用,私有化用minio仍在开发中) | 1. 批量导入:配合BES使用时,不限制文件导入数量,支持按文件夹导入 2. 无限容量:提供无限容量,可拓展和可靠的存储服务 3. 付费功能 |
表格类知识数据导入说明如下:
导入来源 | 特点 |
---|---|
本地上传 | 1. 四种格式:支持.xlsx,.xls,.docx,.csv, .jsonL四种格式; 2. 五种编码:支持UTF-8、GBK、GB2312、GB18030、ASCII五种编码格式 3. 有限容量:单个文件大小不超过100MB,不超过10万行,20列,每行不超过15万字,且文件中最多支持一个sheet工作表(超出范围的内容会被自动忽略) |
读取网页数据源解释如下:
解析网页内容 | 解析子网页及网页内容 | |
---|---|---|
描述 | 仅支持解析所上传URL的网页数据 | 将上传的URL作为根目录,自动解析其所含全部子目录的网页数据 |
URL解析方式 | 1.逐个上传: a.支持逐个上传,最多支持添加10条URL; b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新; c.也可以在上传框下面【一键设置更新频率】进行一键设置2.批量上传:可以通过xlsx文件填写URL实现批量上传(建议使用xlsx模版填写URL |
1.单个根目录上传 a.对单个根目录进行解析 b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新 2.根目录批量解析 a.xlsx文件填写url作为根目录进行批量上传,建议使用AppBuilder提供的xlsx模版填写 b.只支持上传一个文件,单个文件不超过15MB 注意:最多支持解析800条子目录,若通过自动解析子网页的方式导入知识库,子网页数目超过知识库容量800个后多余部分不会被导入知识库。 |
举例 | 通过上传百度百科链接https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683 可以实现对该页面内容的提取和动态追踪 |
使用同样一个百度百科链接https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683 ,由于该链接内还包含其他的跳转链接,可以同时解析处包含链接的内容 |
1.4. 选择配置
【配置方法】可选择自定义配置或模板配置方法。
导入文本文档数据 | 导入知识问答数据 | 读取网页数据源 | |
---|---|---|---|
自定义配置 | 支持 | 不需要配置 | 支持 |
模板配置 | 支持 | 不需要配置 | 不支持 |
自定义配置
上传文档后,在自定义配置方法中,可以配置解析策略、切片策略、知识增强多个功能以提升知识问答效果。
(1)解析策略:默认开启文字提取策略,可以选光学字符识别、版面分析和文档图片解析策略。文档图片解析的开启依赖光学字符识别、版面分析开启,若光学字符识别、版面分析策略关闭,则文档图片解析不可选中。
解析策略配置模块解释如下:
配置方法 | 解释 | 适用场景 |
---|---|---|
文字提取 | 基于规则的文档文字提取 | 默认开启 |
光学字符识别 | 当文档中包含图像等内容时,可以开启该功能,打开后可识别图像、扫描件信息。关闭时,提高文档解析速度。 | 适用于图片、扫描件文档 |
版面分析 | 当文档存在层级结构时,可以开启该功能,打开后会增强对文档层级结构的理解能力,检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时,启用该功能时,可以开启【切片策略-自定义切片-关联标题及子标题】功能。关闭时,提高文档解析速度。 | 文档存在层级结构时建议开启 |
文档图片解析 | 当文档中包含图片,且希望能够在问答中准确召回图片时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图片进行解析,并将相关图片关联在文字切片下方。关闭时,提高文档解析速度。 | 适用于需要对文档中图片进行召回的场景。 |
(2)切片策略:
解析策略配置模块解释如下:
配置方法 | 解释 | 适用场景 |
---|---|---|
默认切分 | 根据文档自动设置切分规则 | 适合具备简单结构的文本,如论文、新闻等 |
自定义切片 | 可以配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。(详细解释见下) | 文本具有特定的结构或需要特别关注某些信息,如药物说明书 |
整文件切片 | 将整份文档的解析内容放入同一个切片中,开启后,会增加文档的处理时长和资源消耗 | 适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字 |
自定义切片相关概念解释如下:
功能 | 解释 |
---|---|
标识符 | 1. 支持按照所选的标识符切分文本时,可以选择的标识符有:中文句号、中文逗号、中文问号、英文句号、英文叹号、英文问号、按页切分、自定义正则表达式。 2. 当选择自定义正则表达式时,需要填写表达式内容和包含策略 a. 表达式:通过正则表达式,自定义可匹配的分隔符。例如: I. [。!?] :任意句号,叹号,问号: II. (第[\d一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾]{1,}章): 第*章 b. 包含策略:对正则匹配的分隔符,设置包含的位置。例如当匹配到 “第*章” 时,可选: I. 前序切片:将 “第*章” 拼接至前序切片末尾 II. 后续切片:将“第*章” 拼接至后续切片开 III. 匹配后丢弃:切分后,将“第*章”删除 IV.注:当表达式涉及多段分隔符时,此选项功能可能不生效 |
切片最大长度 | 设置每个切片内的字符数上限,确保切片的最大长度与模型所支持的上下文长度范围相匹配,以确保数据处理的准确性和效率。 1. 长度越大,召回的上下文越丰富。 2. 长度越小,召回的信息越精简。 3.当前切片最大长度默认为1200字,最高上限为15万字,但需确保填写的切片最大长度不超过模型上下文的数量限制。 |
切片重叠最大字数占比 | 是指:当前切片与前后切片的 “重叠部分字符数” 相较于设置的 “切片最大长度” 的比例。如果重叠部分存在不完整的句子,则此切片舍去该句。占比越大,相邻切片重叠字符越多, 占比越小,重叠字符越少。 例如,如果文本是“我爱学习我爱生活”,假设我们按4个字符进行切片,重叠比例为3/4或75%,则第一个切片是“我爱学习”,第二个切片是“爱学习我”,第三个切片是“学习我爱”,这些切片之间的重叠部分字符数是“爱学习”或“学习我”3个字符。通过这种方式,可以确保每个切片之间有指定的重叠字符数,从而保持文本的连贯性。同时,如果句子“我爱学习并享受这个过程”被切割成“我爱学习”和“并享受这个”,由于“并享受这个”是不完整的,这个切片可能会被舍弃或与其他切片合并。 注:该功能在选择自定义正则表达式标识符时不可用。 |
关联信息 | 1. 关联标题及子标题: 开启后,将在段落切片中补充正文标题或子标题信息,在检索标题相关信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。 2. 关联文件名: 开启后,将在段落切片中补充文件名信息,在检索文件名信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。 |
整文件切分: 该切片策略会将整份文档的解析内容放入同一个切片中,适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字。开启后,会增加文档的处理时长和资源消耗。
(3)知识增强
在检索问答时,系统通过检索知识点召回对应的切片。开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。对于文本文档类和网页数据源的知识切片,知识增强将对每个切片生成对应的知识点,对于表格类知识数据,表格中的一行为一个切片,仅对设置的索引列内容生成对应的知识点。
开启知识增强后,会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。
增强方法 | 解释 |
---|---|
问题生成 | 默认开启。根据切片内容生成问题作为知识点,提升知识点和用户检索文本的相似度,进而提升知识召回成功率。 |
段落概要 | 根据切片内容生成段落概要作为知识点,提升知识召回成功率。开启后,增加文档的处理时长和资源消耗。 |
三元组知识抽取 | 对切片内容抽取三元组信息作为知识点,如:“百度发布新品”--- <百度,发布,新品>。开启后,提升知识召回成功率,同时会增加文档的处理时长和资源消耗。 |
注意事项:知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。
模板配置方法
可选模板 | 具体解释 | 适用场景 |
---|---|---|
简历文档 | 简历模版将文件解析为结构化字段存储在一个切片中 |
支持上传doc、docx、pdf格式文件 |
PPT幻灯片 | 幻灯片模版将文件按页解析,每一页幻灯片内容分别存储在一个切片中 |
支持上传ppt、pptx格式文件 |
论文文档 | 论文模版根据论文结构将文件解析为对应结构切片,如标题、摘要、引言等结构 | 支持doc、docx、pdf格式文件 |
结构化问答对 | 问答对模版将文档识别解析为问答对切片,每一个问答对存储在一个切片,建议问答对间以空行进行分隔。 |
支持doc、docx、pdf、txt格式文件 |