创建数据
更新时间:2024-12-27
通过数据管理相关功能,可以快速实现开源数据集加速下载、开源模型权重加速下载以及数据转储等功能,帮助您完成AI模型训练前的数据准备工作。
前提条件
通过具有权限的用户(主账号或者具有IAMFullControlAccessPolicy的子用户),完成对百舸平台数据服务的授权
- 登录百舸异构计算平台AIHC控制台。
- 在左侧菜单栏选择数据管理,进入页面,如果您未授权会有如下提示,请点击【授权】。
- 点击授权后,会弹出如下页面,该权限包括允许百舸平台数据服务将您指定的数据存储到您对象存储BOS的指定位置,以及使用您的资源池中的资源完成数据转储等数据操作,如果您确认要使用百舸平台数据集相关功能请点击确认,完成服务授权
操作步骤
- 登录百舸异构计算平台AIHC控制台。
- 在左侧菜单栏选择数据管理,进入数据管理页面,点击创建数据集/模型。
- 配置数据基本信息
- 选择创建的内容:数据集/模型
- 填写数据集/模型名称
- 选择数据集类型(仅数据集)
- 确定数据集创建方式(暂时支持从Hugging Face上下载导入数据集)
- 输入开源数据集/模型名称:可以通过Hugging Face数据集名称旁边的复制按钮,复制数据集名称,然后粘贴到输入框
-
如果需要指定具体下载的分支则可以填写分支名称,例如:main
- 如果不指定平台会按如下逻辑下载:
- 1、首先检测main分支是否包含下载程序,平台优先通过下载程序下载,无下载程序则下载main分支
- 2、如果程序下载失败,则如果存在refs/convert/parquet分支,下载该分支
- 3、如果不存在该refs/convert/parquet分支,则下载main分支
- 如果数据集/模型的下载需要提供方授权,需要您取得授权后提供Huggingface的Access Token
- 输入数据集/模型信息备注
-
配置数据集/模型存储位置
- 选择数据集要存储的对象存储的bucket名称
- 输入数据集要存储的路径
- 确认参数,然后单击完成,即可完成数据集/模型创建。
- 数据集/模型状态会展示数据集/模型的下载导入状态
- 数据集/模型创建完成后会在备注中记录数据集/模型下载的分支和数据版本时间