知识库管理
本平台知识库是面向客户构建私域文档或知识管理的能力,实现本地或BOS等多种数据源文档的上传、分段和清洗并储存至向量数据库中。
登录到本平台,在左侧功能列选择知识库,进入知识库主任务界面。
创建知识库
您需要在知识库界面,选择“创建知识库”按钮。按照以下步骤逐项操作,即可完成知识库的创建。
文本文档格式:需要平台分段的知识,主要包含文本内容,可以包括文章、报告、书籍等,通常以纯文本或带有格式的文本形式呈现:
1.基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置
结构化格式:无需平台分段的知识,以表格、键值对或类似结构的形式存储,数据字段和结构相对清晰和规范化:
1.基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置
基本信息
按照下图内容填写知识库名称、描述、选定应用、索引模式和知识格式:
其中,索引模式将决定您之后的命中测试计费,当前索引模式分为以下两种:
-
bge API:bge-large-zh是由智源研究院研发的中文版文本表示模型,可将任意文本映射为低维稠密向量,以用于检索、分类、聚类或语义匹配等任务,并可支持为大模型调用外部知识。
-
Embedding API:调用平台的嵌入接口进行处理,以在用户查询时提供更高的准确度。
您选择索引模式的前提需要您在应用接入中选择/创建可用的应用,操作步骤可参考应用接入使用说明。
文本文档格式
知识格式选择文本文档格式:需要平台分段的知识,主要包含文本内容,可以包括文章、报告、书籍等,通常以纯文本或带有格式的文本形式呈现。选择进入“下一步”。
1.导入配置
支持导入方式及格式分为以下类型:
- 导入方式选择本地存储,选择PDF/TXT/DOC/DOCX/压缩包的导入格式,并进行文件上传。
- 导入方式选择BOS目录导入,需要输入Buket地址及文件夹地址,进行文件上传。开通BOS服务请点击开通服务,文件夹内文件类型支持pdf/txt/doc/docx,文件编码仅支持UTF-8
-
导入方式选择分享链接导入,仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接:
- 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8
- 压缩包内支持多个pdf/txt/doc/docx文件
2.数据库配置
选择以下两种数据库类型:
- 共用:调用共用向量库,仅供少量用户或者测试使用,每个用户1G容量,包含了客户导入的语料数据和语料转换成的向量。
-
BES:调用BES向量化能力,开即用、自动运维以及丰富的监控指标,减少您的运维开销,需要您提前开通服务。
- 百度Elasticsearch(BES)是开源的全文检索和分析引擎Elasticsearch的托管服务,完全兼容开源Elasticsearch的功能,同时内置了基于百度NLP技术的分词插件,即开即用、自动运维以及丰富的监控指标,减少用户运维开销,帮助客户快速启动业务分析。您可以开通服务进行使用,如已开通,请忽略此操作。
- 当前仅支持选择北京区域的BES,且只能通过Http协议连接您的自建BES。
- 需要填写BES集群名称、管理员名称及密码并测试联通性。
分段清洗配置
以上步骤操作完成,选择进入“下一步”。
自动分段
进行以下的分段清洗配置,则进入后台自动分段流程。
自动设置分段规则与预处理规则,如果不了解相关参数,建议选择此项。
自定义
选择自定义分段,进行如下参数调整:
-
分段策略:
- 等价分割:遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。
- 递归分割:按照所选符号先后顺序做递归分割,同一优先级的分割结果合并到预计长度。
-
分段标识符:自定义分段中若未命中分段标识符,分段将会失败;当您选择递归分割策略时,自定义分段标识符勾选顺序决定分段策略。
如图所示,分段策略选了递归分割,分段标识符将按照勾选顺序运行分段策略:
标识符包括(至少选择1种,支持多选):空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。
- 分段预计长度:分片的最长长度,取值范围50-500。文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[文档重叠]个字符,继续向后检查,直到文档结束。
- 分段重叠⻓度:当前分片与上一个分片重叠的文本长度,取值范围0-50。示例如下:
- 预处理规则:替换连续的空格、换行符和制表符 和 删除所有URL和电子邮件地址,可按需选择。
按层级分段
选择按层级分段,按文档(当前仅支持DOCX格式)内标题层级切分段落,进行如下参数调整:
- 标题层级深度:根据标题级别进行分段的最大深度(1~5),比如深度为3,则最大的分段深度为三级标题,可以处理一、二、三级标题。
- 标题保存方式:标题保存的方式,例如当前标题的最大深度为3:联合将多级标题组合在一起,格式为 标题一-标题二-标题三;单个只保存最后一级标题,格式为:标题三。
-
层级分段策略:
- 等价分割:遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。
- 递归分割:按照所选符号先后顺序做递归分割,同一优先级的分割结果合并到预计长度。
-
层级分段标识符:若未命中分段标识符,分段将会失败;当您选择递归分割策略时,自定义分段标识符勾选顺序决定分段策略。
如图所示,分段策略选了递归分割,分段标识符将按照勾选顺序运行分段策略:
标识符包括(至少选择1种,支持多选):空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。
- 层级分段预计长度:分片的最长长度,取值范围50-500。文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[文档重叠]个字符,继续向后检查,直到文档结束。
- 层级分段重叠⻓度:当前分片与上一个分片重叠的文本长度,取值范围0-50。示例如下:
- 预处理规则:替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。
分段清洗提示说明
- 为什么要数据处理?
在处理文本数据时,分段和清洗是两个重要的预处理步骤。通过对数据集进行适当的分段和清洗,可以提高模型在实际应用中的表现,从而为用户提供更准确、更有价值的结果。 - 分段的目的是什么?
分段的目的是将长文本拆成小段落、以便模型更有效的处理和理解。这有助于提高模型生成结果的质量和相关性。 - 为什么要进行清洗?
清洗是对文本进行预处理,删除不必要的字符、符号或格式,使数据集更加干净和整洁,便于模型解析。
索引配置
完成以上所有操作后,即可进行索引配置:
如上图所示,打开参与索引后,才可选择索引类型,字段类型平台内置的字段类型(content),不支持自定义打开此开关。
不同类型文档的字段如下表所示:
文本类型支持分词检索,其他类型不分词检索无强制类型,类型仅作为标记数据;
倒排索引用于关键字过滤,嵌入索引用于语义检索。
结构化格式
知识格式选择结构化格式:无需平台分段的知识,以表格、键值对或类似结构的形式存储,数据字段和结构相对清晰和规范化。选择进入“下一步”。
1.导入配置
支持导入方式及格式分为以下类型:
- 导入方式选择本地存储,选择CSV/XLSX/JSONL类型,并进行文件上传。
注意:当您选择导入格式为CSV时,需要标明列分割符为半角逗号/制表符/空格。
- 导入方式选择BOS目录导入,需要输入Buket地址及文件夹地址,进行文件上传。开通BOS服务请点击开通服务,文件夹内文件类型支持csv/xlsx/jsonl,文件编码仅支持UTF-8。
-
导入方式选择分享链接导入,仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接:
- 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
- 压缩包内支持多个csv/xlsx/jsonl文件。
2.数据库配置
选择以下两种数据库类型:
- 共用:调用共用向量库,仅供少量用户或者测试使用,每个用户1G容量,包含了客户导入的语料数据和语料转换成的向量。
-
BES:调用BES向量化能力,开即用、自动运维以及丰富的监控指标,减少您的运维开销,需要您提前开通服务。
- 百度Elasticsearch(BES)是开源的全文检索和分析引擎Elasticsearch的托管服务,完全兼容开源Elasticsearch的功能,同时内置了基于百度NLP技术的分词插件,即开即用、自动运维以及丰富的监控指标,减少用户运维开销,帮助客户快速启动业务分析。您可以开通服务进行使用,如已开通,请忽略此操作。
- 当前仅支持选择北京区域的BES,且只能通过Http协议连接您的自建BES。
- 需要填写BES集群名称、管理员名称及密码并测试联通性。
分段清洗配置
以上步骤操作完成,选择进入“下一步”。结构化格式数据无需进行分段,但可以选择进行预处理。
- 替换连续的空格、换行符和制表符 和 删除所有URL和电子邮件地址,可按需选择。
索引配置
完成以上所有操作后,即可进行索引配置:
如上图所示,打开参与索引后,才可选择索引类型,字段类型平台内置的字段类型(content),不支持自定义打开此开关。
主内容用于在段落卡片的前端进行默认展示。鼠标悬停字段名称后显示主内容icon,点击即可完成设置。
倒排索引用于关键字过滤,嵌入索引用于语义检索。
操作知识库
知识库创建成功后,可以对其进行详情查看、编辑和删除等操作。点击如下"..."即可进行相关操作。
其中,以下代表知识库中的文件状态为成功文档总数,字符数以及关联插件数。
详情
可在详情查看中,查看到知识库的基本信息和已导入文档的信息概览。
导入文件
在详情页中,可以继续向知识库导入文件。
需注意:导入新文件的配置继承知识库导入配置中的数据库配置,不可修改。
文件信息概览
在本界面可以查看导入到知识库的文件名称、文件状态和文件字符数等信息。其中,
- 启用状态:开启后可以被用于插件检索,否则不参与搜索匹配;
- 命中次数:统计在应用插件搜索时被命中的次数。
- 点击操作列的“设置”按钮,(如下图所示)可以批量或指定段落的启用和停用。另外,还可以在右侧查看文档的基本信息及导入配置信息。
导入配置信息中的关键词:
命中百分比:搜索被命中的片段占总片段数的百分比;
嵌入时间:文档向量化所用耗时;
嵌入花费:文档向量化消耗的tokens数。
- 点击操作列的“删除”按钮,将会删除本文档,一旦删除,不可恢复。
索引配置详情
我们点开某jsonl文件,即可查看到其在创建知识库时进行的索引配置,同时可以对此分段进行启/停用。
编辑
当您选择知识库的编辑按钮,暂不支持对索引模式的变更,继承创建知识库时的索引模式,其他可编辑内容,如下图所示:
删除
当您选择知识库的删除按钮,此知识库及导入到知识库的文档都将被删除,一旦删除,不可恢复。