数据集
更新时间:2025-10-24
数据集
DataBuilder支持在数据目录中创建数据集。
创建数据集及版本
- 在数据卷页面右上角点击创建数据集按钮,填写创建数据集配置项。
表1 创建数据集配置项
| 配置项名称 | 说明 |
|---|---|
| 数据集名称 | 填写数据集名称,支持输入 大小写字母、数字、下划线,1-64字符,数据集名称在schema中不可重复。 |
| 数据集类型 | 选择数据集类型,内部数据集 / 外部数据集。 |
| 数据类型 | 选择数据类型,数据类型:文本、图片、音频、视频。 |
| 存储类型 | 对象存储BOS。 |
| 数据集描述 | 填写数据集描述,0-150字符。 |
- 在数据集页面右上角单击创建数据集版本按钮,进入配置流程。
表2 创建数据集版本配置项说明
| 配置项 | 说明 |
|---|---|
| 数据解析格式 | 下拉选择数据解析格式,当前支持Parquet、CSV、JSON、Text和Imagefolder。 |
| 描述 | 输入对数据集版本的描述,0-150字符。 |
查看数据集
在左侧目录树选择数据集后,右侧展示数据集的详细内容,用tab页切换可查看数据集数据/概览/详情。
数据集概览
- 通过切换tab页选择概览可查看数据集描述、版本信息。
- 单击描述旁边修改按钮可以对数据集的描述进行修改。
- 版本信息:概览页面展示数据集概览版本信息,支持对版本信息进行删除操作。
版本信息数据详情
展示当前版本文件中的详细数据内容.支持图片的查看,单击图片可将图片放大,右侧查看图片信息。单击全屏检索可在当前页面进入数据集分析检索页,通过编写SQL对数据集进行查询并支持保存SQL语句和导入SQL语句。
版本信息概览
- 单击数据集概览中版本信息名称,进入版本信息详情,通过tab也切换选择概览可查看版本信息概览。
- 在描述旁边单击修改按钮,可对描述进行修改。
- 文件信息:文件信息可查看版本信息的详细信息,包括文件名称、文件大小等,同时可对文件信息进行下载或删除操作。
- 数据集版本中上传文件:支持上传数据,单击详情右上角上传数据到数据集,将文件拖拽到页面对应区域或选择文件可进行数据上传。在上传过程中,在页面右下方可查看文件上传情况和进度。注意:每次上传的总文件大小不超过500MB,单个文件不超过100MB。
表3 版本信息文件信息列表说明
| 列表项名称 | 说明 |
|---|---|
| 文件名称 | 数据集版本文件的名称。 |
| 文件大小 | 文件的大小。 |
| 更新时间 | 版本信息最新更新时间。 |
| 操作 |
版本信息详情
- 单击数据集概览中版本信息名称,进入版本信息详情,通过tab也切换选择详情可查看版本信息详情。详情包括数据集的版本、版本ID、数据路径、创建人、创建时间、最近修改人、修改时间、数据格式、样本数、数据集大小和属性。
数据集详情
通过切换tab页选择详情可查看数据集数据集基本信息。包括数据集名称、数据集 ID、数据集类型、所有者、创建人、创建时间、最近修改人、修改时间、存储类型和数据类型。
权限管理
通过切换tab页选择权限管理,可在权限管理页面查看当前数据集的用户。通过单击授权或撤销可对用户进行授权和取消权限操作,支持通过主体名称进行搜索。
修改数据集名称
在数据集页面右上角创建按钮旁边单击按钮,选择重命名Datase。在编辑框内修改数据集名称后单击确定,需要注意的是,数据集的名称在同个schema中不可重复,不同schema中间可以重复。
删除数据集
在数据集页面右上角创建按钮旁边单击按钮,选择删除Datase。注意:删除后数据无法恢复,请谨慎删除。
