知识管理
基本概念
1.知识集定义
知识集:一系列具备同类别知识文件的集合,分别用于问答场景和续写场景。
- 智能问答:可以上传文档形式的知识内容,如Spring开发文档、文心一言API文档、LangChain开发文档等,也可以上传代码库、代码文件等代码形式的知识文件内容主要用于私域知识问答功能。
- 智能续写:可以上传代码库、代码文件等代码形式的知识文件内容。主要用于代码续写增强功能。
2.知识集类型
页面默认展示当前企业用户创建的全部知识集,排列方式根据创建时间先后顺序倒排。不同知识集类型通过标签区分,也可以通过筛选框单独查看,以下为知识集类型与对应的权限。
-
按插件应用场景划分,以保证插件侧问答、续写两个场景的检索生成效果:
- 智能问答知识集,主要用于智能体私域知识问答功能
- 智能续写知识集,主要用于代码续写增强功能

-
按具体使用权限划分,各业务单元可以做到知识隔离:
- 组织知识集(组织可见):被管理员创建知识集时赋予权限的部门具有该组织知识集的管理、可读权限;创建知识集后,管理员依然可以为某个部门、或某个企业成员赋予管理、可读权限
- 个人知识集(仅我可见):个人自动拥有个人知识集管理和可读权限

注:知识集可见范围=知识集使用权限
3.知识定义
- 文档知识:知识是一篇文档(如一篇Markdown文档、一篇PDF文档、一篇txt文档等),一系列文档知识组装成文档知识集。
- 代码知识:知识是一个zip格式打包的代码库,或一个独立代码文件,一系列代码知识组装成代码知识集。
4.知识准备规则
- 按照私域知识问答、代码续写增强两类应用场景分别准备对应的文档和代码文件。
- 推荐按照类别的不同拆分成不同的知识集(如A应用的API文档、B应用的API,拆成两个不同的知识集)
- 如果私域知识存在多个版本,建议拆分成不同的知识集,如 A应用API 1.0、A应用API 2.0、A应用API 3.0等
知识管理
添加知识
当您已完成知识集的创建后,可点击知识集名称进入知识集,完成知识文件的上传。

内容要求
1.问答场景
- 内容要求:支持上传需求文档、开发规范、API文档等内容。
- 格式要求:文件支持:pdf、md、txt、docx(doc)、xlsx、pptx(ppt)、csv、xml、sql、zip、gz格式。对Markdown格式文件进行的特殊调优,推荐上传Markdown格式文件,效果更佳!
2.续写场景
- 内容要求:支持上传Java、Python、JS、TS、C++、Go等语言内容。
- 格式要求:文件支持.zip、.gz、.tar、.gz格式,文件小于100M。
文档类知识内容建议
- 文字描述丰富:Comate背后的模型是语言(文本)模型,如果文档中存在较多的图片,会大大降低检索的效果,因此文档中尽可能减少图片、增加详实的文字描述,将会显著提高检索质量
- 文档逻辑清晰:高质量的数据不单单在大模型的训练中极其重要,在通过RAG强化模型输出效果时也极其重要。因此,文档内容有层次、语言描述言简意赅无歧义、每个段落有标题等结构,会显著提高检索质量
- 目录结构清晰:如果您有大量的文档分散在不同的目录中,您可以直接将根目录打成压缩包上传为知识,Comate将自动解压缩读取每篇文档。为了保证更好的检索效果,建议每个层级目录的命名言简意赅,能够充分表达这一层级目录的文档类别。
- Markdown格式的内容效果最好。
代码类知识内容建议
-
上传高质量的代码
- 高频次出现的、多次被引用的、符合规范的代码片段
-
例如
- 后台核心业务组件、可复用的工具
- 前端公共模板库代码、通用组件代码
- 包含函数注释,或者函数名规范(可清晰描述函数功能)
-
避免干扰性代码或大量质量不高的代码
- 避免上传测试代码、MOCK 数据、构建产物等
- 同一知识集内,若上传多个代码库或代码文件,请确保属于同一项目,以保证检索效果。
- 目前支持的文件类型:
'.java', # Java '.py', # Python '.go', # Go '.js', # JavaScript '.ts', # TypeScript '.c', # C '.h', # C/C++ 头文件 '.cpp', # C++ '.cc', # C++ '.cxx', # C++ '.hpp', # C++ 头文件 '.hh', # C++ 头文件 '.hxx' # C++ 头文件
上传方式
知识文档支持多种上传方式,包括本地文件导入、本地Git仓库导入、Gitee导入和Gitlab导入。

1.本地文件导入
文件支持:pdf、md、txt、docx(doc)、xlsx、pptx(ppt)、csv、xml、sql、zip、gz格式 压缩文件小于100M,建议单文件小于1M

2.本地Git仓库导入
建议单次上传所有文件总和小于100M、单文件小于1M
需要输入源代码地址、账号/密码,填写后选择分支

3.Gitee导入
建议单次上传所有文件总和小于100M、单文件小于1M
需要输入源代码地址、账号/密码,填写后选择分支

4.Gitlab导入
建议单次上传所有文件总和小于100M、单文件小于1M
需要输入源代码地址、账号/密码,填写后选择分支

知识上传状态
- 【待处理】:代表系统将有序对上传的文件进行处理,未开始处理的进入排队状态。
- 【处理中】:处理过程中,请等待
- 【已完成】:代表上传成功。
- 【激活失败】:在知识集上传阶段出现异常,可以进行重新上传重试。
- 【异常文件】:上传状态为【异常】代表文件处理出现异常,聚焦在状态标记上可查看原因,此时可结合不同的情况进行重新处理或删除异常文件。上传状态为【重复文件】文件内容重复,不进行重复处理,可删除重复文件。

知识集管理
1.查看知识集
组织知识集和个人知识集都支持多条件查询:组织结构、知识集类型、创建人,同时也可以点击右上角按照知识集名称进行查询

2.新增知识集
点击新增知识集,用户根据所需使用场景(智能问答、智能续写)、所需使用范围(个人知识集、组织知识集)可以选择需要上传的知识集类型

仅我可见:创建个人知识集,仅支持个人进行增删改查;其他管理员不可见
组织可见:创建组织知识集,并选择具体部门赋予管理权限

3.批量删除知识集
勾选多个知识集后,可以点击批量删除

- 编辑知识集:点击表单的操作栏目,可以对知识集进行编辑/删除
编辑知识集无法变更知识集应用场景以及类型(无法点击),可以修改知识集可见部门、名称、描述

