创建数据库
概述
【个人空间-数据库】用于存储和管理结构化数据格式的文件,实现结构化数据表格问答的功能,支持单表查询、多表查询等。
- 登录百度智能云千帆-AppBuilder。
- 在左侧菜单栏中,选择【个人空间—数据库】,进入该页面后,可查看到当前所有数据库列表。
- 如果希望Agent能够引用表格结构的数据,实现表格问答和图表生成,需要先创建一个数据库。
创建方式
点击【创建数据库】,可以选择目前支持的两种数据库创建方式,【上传数据表】和【直连数据库】。每个账号通过上传数据表的方式最多创建100个数据库,每个数据库最多创建100个数据表;通过直连数据库的方式最多创建20个数据库,每个数据库中表的数量无上限。
创建方式 | 适用场景 |
---|---|
上传数据表 | 适用于需要快速创建数据库并填充初始数据的小型项目,如果数据原本存储在Excel、CSV等格式的文件中,使用这种方式可以方便地将数据迁移到数据库中 |
直连数据库 | 适用于需要和已有的数据库系统进行数据同步或实时更新的场景,可以确保数据的一致性和实时性 |
上传数据表
创建数据库
点击数据库列表右上方的【创建数据库】按钮,在弹出框中选择【上传数据表】,填写数据库的名称和描述即可创建一个空数据库,创建成功后即可进入这个数据库。
创建数据表
进入一个数据库可以看到这个数据库下的所有数据表,点击右上方『上传数据表』可以创建一个新的数据表,上传数据表一共包含三步操作,分别为:上传数据、数据配置、数据校验,完成这三部操作后即可对该数据表进行问答,一个数据库最多支持创建100个数据表。
-
上传数据
通过上传一个表格文件来创建一个数据表,支持csv、xls、xlsx、jsonL四种格式的数据文件,你可以下载模板文件,并按照模板规则填写数据最后上传至此界面。
数据上传规则如下:
- 单次最多支持上传100个数据文件
- 数据表第一行为列名,最多支持定义20列属性,多余的列将会被自动删掉。
- 工作表数据长度(行数)不能超过10万行,不包含表头,超过10万行的部分将会被自动删除。
- 每个上传的文件最多支持一个sheet工作表,默认只读取第一个sheet 工作表,并根据工作表创建数据库表,其他sheet将会忽略。
- 单元格长度不能超过1200字符。
- csv、jsonl文件支持utf-8、GB2312、GBK、GB18030、ASCII五种编码格式。
- jsonL格式创建的数据表将会选取第一行json中的key值作为列名。
- 文件名不包含特殊字符,且不包含重名文件。
-
文件校验:完成数据上传后你可以看到所有表格的校验结果,校验状态包括成功文件、超限文件、问题文件。
- 超限文件:1)存在个别单元格数据类型校验失败 2)数据行数超过限制 3)存在多个sheet
- 问题文件:校验失败,可能的原因有:1)表格为空 2)上传的表为空表 3)表头信息有错误 4)文件格式不支持 5)上传文件名不规范
- 删除:支持删除已导入的数据表。
- 自动生成表描述:开启自动生成表描述后,确认导入后AI生成各个表的表描述,可以快捷完成表配置。
-
数据配置
数据上传成功后需要对数据表进行配置,包括设置数据表名称、数据表描述、列名、列描述、列数据类型。如果你单次上传了多个数据文件,需要将所有表格都配置完成后再点击下一步。
可配置项如下:
数据表可编辑项目 | 描述 |
---|---|
数据表名称 | 填写数据表名称,此名称用来在个人中心—我的数据—数据库中展示。 |
数据表描述 | 填写数据表描述,请务必准确填写表格描述,大模型在问答时根据表格描述识别和选择使用哪张表回答你的问题,在填写时可以参考平台提供的示例模板,你可以按照模板描述表格包含的字段、用途、是否和其他表格有关联,通过哪个字段进行关联等。也可以点击AI结合已填写的内容和表格列信息生成表描述来快捷填写。 |
列名 | 更改列名,大模型生成回答时会参考列名信息对数据进行检索和回答生成。 |
列描述 | 填写列描述,用来解释此列数据的含义和用途,大模型将会根据列描述选择对应的列数据进行检索和生成回答。 |
数据类型 | 根据实际列数据设置每列的数据类型,支持设置文本、整数、小数、日期、时间、百分比、布尔几种数据类型 |
3.数据校验 完成数据配置后点击下一步进入数据校验阶段,你可以看到所有表格的校验结果,校验状态包括校验中、校验成功、部分校验成功、校验失败。
- 校验中:正在校验中
- 校验成功:数据表格全部校验成功
- 部分校验成功:存在个别单元格数据类型校验失败,或数据行数超过限制;hover后可以下载异常数据,通过追加数据对内容进行修改。
- 校验失败:校验失败,可能的原因有:1)表格为空 2)上传的表为空表 3)表头信息有错误 4)文件为非支持格式
追加数据:支持对一张数据表追加数据,追加数据将会自动复用当前的数据配置信息,上传的文件表头信息、列数量需要和已上传的数据表一致。追加数据后数据表会进入校验中,校验通过后可以进行问答。
修改数据配置:支持对已创建的一个数据表修改配置信息,支持修改数据表名称、数据表描述、列名、列描述。支持修改数据类型。
删除:支持批量删除和单独删除已创建的数据表。删除时会提示当前数据表已关联的应用。删除操作不可撤销,请谨慎操作。
直连数据库
创建数据库
点击直连数据库,输入你要创建的数据库名称和描述。填写以下字段:
字段 | 填写指南 |
---|---|
数据源类型 | 目前支持MySQL、SQL Server两种数据源类型,根据你的数据库类型下拉选择 |
数据库地址Host | 您输入的数据源Host必须是公网地址,如果您的数据库不能通过公网访问,可以考虑接入百度智能云RDS,并打开对应RDS实例的公网IP。具体步骤见如何开通公网? |
端口号 | 输入端口号 |
数据库名 | 输入您的数据库名 |
用户名 | 输入用户名 |
密码 | 输入密码 |
点击【连接测试】,测试通过后才创建成功。同一个账号下的两个数据库不可连接同一个数据源。
数据列表(数据源表)
创建成功后即可进入该数据库,下方列表为从数据源中自动拉取的数据表,数据表名称、创建时间、更新时间、数据量自动填入。
-
状态
进入数据库,数据库名右侧显示当前该数据库的状态。
状态 解释 更新中 刷新数据源状态变为更新中。 连接正常 数据源初次连接/更新完成。 连接失败 如刷新后,数据源由于数据源链接信息改变,状态流转至失败。光标悬停在上方可显示失败原因。 -
刷新数据源
点击【刷新数据源】,将立刻重新拉取数据源中的数据表,同时数据库状态转变为更新中。刷新数据源需要一定的时间。
编辑数据库
点击【编辑数据库】,进入数据库编辑页面。可在该页面修改数据库名称和数据库描述。若修改密码,会恢复到未测试状态,需要重新通过连接测试才可以点击确认保存修改。
查看数据表
点击【查看数据表】可进入数据表详情页,列名为自动抓取的数据源表中的字段。
点击【搜索关键字】,将自动筛选出属性中包含该关键字的全部记录,字段的数据类型为VARCHAR时支持模糊查询。点击【基本信息】可以看到该表的创建时间、更新时间、数据量、中文名称、数据表描述等内容。点击【编辑数据表】可进入数据表编辑界面。
编辑数据表
以下两种方法均可进入数据表编辑界面:
-
数据库界面每条数据表记录最右侧的【编辑数据表】:
-
数据表详情页右上角的【编辑数据表】:
数据表可编辑项目 | 内容 |
---|---|
数据表中文名 | 作为该数据表的别名,支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.) |
数据表描述 | 描述该表的应用场景,大模型将根据此描述识别并调用该表。内置描述模板,可使用AI生成内容 |
可以通过列名搜索需要编辑的列。
列可编辑项目 | 内容 |
---|---|
中文名 | 作为该字段的别名 |
同义词 | 该字段的同义词,用于大模型识别和理解。标签总字数不超过100 |
单位 | 描述该字段数据的单位,可在下拉菜单中选择,也可以自定义 |
列描述 | 用来解释此列数据的含义和用途,可提高大模型回答准确率。大模型将会根据列描述选择对应的列数据进行检索和生成回答,总字数在100字符以内 |
是否参与索引 | 索引字段是大模型选列的参照字段,请至少启用一个字段 |
引用数据库
平台支持在应用配置中引用一个已创建的数据库,每个应用最多支持引用一个数据库。相关操作可查看创建应用—数据库部分。
引用数据时,支持直接新建数据库,或在已有数据库下新建数据表。