数据集创建及管理
更新时间:2025-01-23
在进行模型开发、训练、推理之前,一般需要准备好指定的数据集。AI数据管理提供了强大的数据集管理功能,允许您创建和管理数据集及其多个版本。 通过数据集版本管理,可以精确复现实验、追踪数据版本、控制数据权限,以及在新版本出现问题时快速切换至旧版本,从而确保业务的连续性。
数据集管理功能支持对用户数据集进行元数据管理和权限管理。
进入数据集管理
- 登录百舸控制台
- 在左侧导航栏选择 AI数据管理 > 数据集
创建数据集
在自定义数据集页签下单击【创建数据集】
字段 | 说明 |
---|---|
名称 | 必填,数据集的名称 |
存储类型 | 必选,存储类型支持对象存储(BOS)、并行文件存储(PFS) |
存储实例 | 必选,BOS存储桶或PFS实例 |
导入格式 | 必选,支持文件和文件夹 当导入格式为文件时,存储路径需选择一个文件,创建好的数据集将与此文件相对应,常用于直接指定到某个具体文件的数据集创建。 当导入格式为文件夹时,存储路径需选择一个文件夹路径,可被挂载在容器中,常用于训练、推理或开发机的数据卷。 |
描述 | 选填,对数据集的描述信息 |
所有者 | 必选,创建时可以指定一个所有者,所有者对该数据集有管理权限(编辑、删除、创建版本等) |
使用权限 | 必选,有三种数据权限可选:公开可读、仅所有者可读写、指定范围可用 公开可读:所有子用户可以以只读方式使用此数据集,仅所有者可读写方式使用 仅所有者可读写:仅数据集的所有者可以读写 指定范围可用:指定用户/用户组可以使用过,且根据拥有的权限读写 以上所述 可读、读写 指在使用数据集时用户创建的负载可以以哪种方式使用,比如在训练任务中一般需要使用读写权限的数据集保存权重、推理服务中如无写入操作则可以直接使用仅可读的数据集 |
版本 | 必选,系统自动生成 |
版本描述 | 选填,对版本的描述 |
存储路径 | 必选,数据集在存储中对应的路径 |
默认挂载路径 | 必选,数据集挂载到负载上时的挂载路径,在挂载时可以修改 |
管理数据集
AI资产管理员或数据集所有者可以数据集进行管理操作,可以查看版本列表、新建版本、编辑数据集和删除等操作;
普通成员仅可查看和使用自己有使用权限的数据集。
编辑数据集
支持对数据集名称、描述、使用权限进行修改,在数据集权限发生变更时,运行中的负载不会收到影响。
新建版本
同一个数据集下可以创建多个数据版本,数据版本不可以编辑
删除数据集
删除数据集时会删除数据集下所有的版本,存储中的数据不会被删除。