创建数据库
概述
【个人空间-数据库】用于存储和管理结构化数据格式的文件,实现结构化数据表格问答的功能,支持单表查询、多表查询等。
- 登录百度智能云千帆-AppBuilder,进入控制台界面。
- 在左侧菜单栏中,选择【个人空间—数据库】,进入该页面后,可查看到当前所有数据库列表。
- 如果希望Agent能够引用表格结构的数据,实现表格问答和图表生成,需要先创建一个数据库。
创建方式
点击【创建数据库】,可以选择目前支持的两种数据库创建方式,【上传数据表】和【直连数据库】。每个账号通过上传数据表的方式最多创建100个数据库,每个数据库最多创建10个数据表;通过直连数据库的方式最多创建20个数据库,每个数据库中表的数量无上限。
创建方式 | 适用场景 |
---|---|
上传数据表 | 适用于需要快速创建数据库并填充初始数据的小型项目,如果数据原本存储在Excel、CSV等格式的文件中,使用这种方式可以方便地将数据迁移到数据库中 |
直连数据库 | 适用于需要和已有的数据库系统进行数据同步或实时更新的场景,可以确保数据的一致性和实时性 |
上传数据表
创建数据库
点击数据库列表右上方的【创建数据库】按钮,在弹出框中选择【上传数据表】,填写数据库的名称和描述即可创建一个空数据库,创建成功后即可进入这个数据库。
创建数据表
进入一个数据库可以看到这个数据库下的所有数据表,点击右上方『上传数据表』可以创建一个新的数据表,上传数据表一共包含三步操作,分别为:上传数据、数据配置、数据校验,完成这三部操作后即可创建一个数据表,一个数据库最多支持创建10个数据表。
-
上传数据
通过上传一个表格文件来创建一个数据表,支持csv、xls、xlsx、jsonL四种格式的数据文件,你可以下载模板文件,并按照模板规则填写数据最后上传至此界面。
数据上传规则如下:
- 单次最多支持上传5个数据文件
- 数据表第一行为列名,最多支持定义20列属性,多余的列将会被自动删掉。
- 工作表数据长度(行数)不能超过10万行,不包含表头,超过10万行的部分将会被自动删除。
- 每个上传的文件最多支持一个sheet工作表,默认只读取第一个sheet 工作表,并根据工作表创建数据库表,其他sheet将会忽略。
- 单元格长度不能超过1200字符。
- csv、jsonl文件只支持utf-8格式
- jsonL格式创建的数据表将会选取第一行json中的key值作为列名。
-
数据配置
数据上传成功后需要对数据表进行配置,包括设置数据表名称、数据表描述、列名、列描述、列数据类型。如果你单次上传了多个数据文件,需要将所有表格都配置完成后再点击下一步。
- 数据表名称:填写数据表名称,此名称用来在个人中心—我的数据—数据库中展示。
- 数据表描述:填写数据表描述,请务必准确填写表格描述,大模型在问答时根据表格描述识别和选择使用哪张表回答你的问题,在填写时可以参考平台提供的示例模板,你可以按照模板描述表格包含的字段、用途、是否和其他表格有关联,通过哪个字段进行关联等。
- 列名:自动识别文件中第一行为列名,最多支持定义20列属性,多余的列将会被自动删掉。支持修改列名,一张表格中的列名不能重复,一个数据库中任意两张表的列名也不能完全重复。
- 数据示例:自动提取并展示文件中第一行的数据,你可以参考数据特征填写列描述和数据类型
- 列描述:填写每一列的描述信息,为了提高问答准确率,请务必准确填写列描述,用来解释此列数据的含义和用途,大模型将会根据列描述选择对应的列数据进行检索和生成回答。
- 数据类型:填写每一列的数据类型,平台会自动根据第一行数据自动识别数据类型,支持修改数据类型。
-
数据校验
完成数据配置后点击下一步进入数据校验阶段,你可以看到所有表格的校验结果,校验状态包括校验中、校验成功、部分校验成功、校验失败。
- 校验中:正在校验中
- 校验成功:数据表格全部校验成功
- 部分校验成功:存在个别单元格数据类型校验失败,或数据行数超过限制
- 校验失败:校验失败,可能的原因有:1)表格为空 2)上传的表为空表 3)表头信息有错误 4)文件为非utf-8格式
- 查看数据:校验成功或者部分校验成功的表格支持查看数据,可以预览这个数据表的数据
- 重新上传:对于部分校验成功或者校验失败的表格,可以本地修改后重新上传数据,重新上传后新数据将会替代原有数据,并重新进入数据校验。重新上传的数据将会复用当前已设置的数据配置信息,所以新上传的数据表头信息不可更改。
- 删除:支持删除数据表,删除后将不会存储此数据表。
点击『完成上传』后,即可完成数据表的创建,并进入数据表列表页。能够看到已创建的数据表。
查看数据
在数据表列表页中,支持点击查看数据进入数据表详情页,可以看到表格的列名以及所有数据。
追加数据
支持对一张数据表追加数据,追加数据将会自动复用当前的数据配置信息,上传的文件表头信息、列数量需要和已上传的数据表一致。追加数据后数据表会进入校验中,校验通过后可以进行问答。
修改数据配置
支持对已创建的一个数据表修改配置信息,支持修改数据表名称、数据表描述、列名、列描述。不支持修改数据类型。
删除
支持删除一个已创建的数据表,删除操作不可撤销,请谨慎操作。
直连数据库
创建数据库
点击直连数据库,输入你要创建的数据库名称和描述。填写以下字段:
字段 | 填写指南 |
---|---|
数据源类型 | 目前支持MySQL、SQL Server两种数据源类型,根据你的数据库类型下拉选择 |
数据库地址Host | 您输入的数据源Host必须是公网地址,如果您的数据库不能通过公网访问,可以考虑接入百度智能云RDS,并打开对应RDS实例的公网IP。具体步骤见如何开通公网? |
端口号 | 输入端口号 |
数据库名 | 输入您的数据库名 |
用户名 | 输入用户名 |
密码 | 输入密码 |
点击【连接测试】,测试通过后才创建成功。同一个账号下的两个数据库不可连接同一个数据源。
数据列表(数据源表)
创建成功后即可进入该数据库,下方列表为从数据源中自动拉取的数据表,数据表名称、创建时间、更新时间、数据量自动填入。
-
状态
进入数据库,数据库名右侧显示当前该数据库的状态。
状态 解释 更新中 刷新数据源状态变为更新中。 连接正常 数据源初次连接/更新完成。 连接失败 如刷新后,数据源由于数据源链接信息改变,状态流转至失败。光标悬停在上方可显示失败原因。 -
刷新数据源
点击【刷新数据源】,将立刻重新拉取数据源中的数据表,同时数据库状态转变为更新中。刷新数据源需要一定的时间。
编辑数据库
点击【编辑数据库】,进入数据库编辑页面。可在该页面修改数据库名称和数据库描述。若修改密码,会恢复到未测试状态,需要重新通过连接测试才可以点击确认保存修改。
查看数据表
点击【查看数据表】可进入数据表详情页,列名为自动抓取的数据源表中的字段。
点击【搜索关键字】,将自动筛选出属性中包含该关键字的全部记录,字段的数据类型为VARCHAR时支持模糊查询。点击【基本信息】可以看到该表的创建时间、更新时间、数据量、中文名称、数据表描述等内容。点击【编辑数据表】可进入数据表编辑界面。
编辑数据表
以下两种方法均可进入数据表编辑界面:
-
数据库界面每条数据表记录最右侧的【编辑数据表】:
-
数据表详情页右上角的【编辑数据表】:
数据表可编辑项目 | 内容 |
---|---|
数据表中文名 | 作为该数据表的别名,支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.) |
数据表描述 | 描述该表的应用场景,大模型将根据此描述识别并调用该表。内置描述模板,可使用AI生成内容 |
可以通过列名搜索需要编辑的列。
列可编辑项目 | 内容 |
---|---|
中文名 | 作为该字段的别名 |
同义词 | 该字段的同义词,用于大模型识别和理解。标签总字数不超过100 |
单位 | 描述该字段数据的单位,可在下拉菜单中选择,也可以自定义 |
列描述 | 用来解释此列数据的含义和用途,可提高大模型回答准确率。大模型将会根据列描述选择对应的列数据进行检索和生成回答,总字数在100字符以内 |
是否参与索引 | 索引字段是大模型选列的参照字段,请至少启用一个字段 |
引用数据库
平台支持在应用配置中引用一个已创建的数据库,每个应用最多支持引用一个数据库。相关操作可查看创建应用—数据库部分。