经典版声音分类数据集管理API 本文档主要说明当您线下已有大量的已经完成分类整理的音频数据,如何通过调用API完成音频数据的便捷上传和管理。 数据集创建API 接口描述 该接口可用于创建数据集。
创建数据集 接口描述 本接口用于创建新的数据集,数据集创建完成后自带版本V1。 调用本接口和控制台创建数据集页面功能类似,如下图所示。说明:如下图页面与控制台页面不同,请以控制台页面为准。 权限说明 调用本文API,需符合以下权限要求,权限介绍及分配,请查看 角色与权限控制列表 、 账号创建与权限分配 。
经典版声音分类创建数据集 在训练之前需要在数据中心【创建数据集】 设计分类 每个标签就是对这个音频希望识别出的全部结果。标签的上限为1000种。 标签名由数字、中英文、中/下划线组成,长度上限256字符。 音频的具体格式要求 训练集音频需要和实际场景要识别的音频环境一致,举例:如果实际场景要识别的音频都是手机摄录的,那训练的音频也需要同样的场景获得,而不要采用网上随便下载的音频。
在数据集列表中确定需要操作的数据集,点击操作列的 “缓存预热” ,添加需要预热的数据路径,点击“确认”。 注意: 默认情况下,系统将预先缓存数据集的全部数据到本地。若指定数据集的一个或多个路径,则只缓存对应路径下的数据; 若指定为空则默认缓存所有路径。 RapidFS 仅支持对根路径即整个数据集进行预热,暂不支持子路径预热。 查看YAML 在CCE集群管理页面单击 云原生AI > 数据集 。
在集群管理页面单击 云原生AI > 数据集 。 在数据集管理页面中,可以查看已创建数据集及其相关信息,如果数据集较多,可以通过左上方“数据集名称”进行快速搜索。 7.在数据集列表中“数据集名称”列点击某一数据集名称,进入“数据集详情”页面,查看详细信息。
在集群管理页面单击 云原生AI > 数据集 。 在数据集管理单击 新建数据集 。 在新建数据集页面中,完成数据集基本信息及数据源配置: 数据集名称:自定义队名名称,长度为1-65个字符,只能包含数字、英文小写字母和“-”,且不能以“-”开头或结尾。 命名空间:选择集群中已有的命名空间。 数据源:选择数据源类型、数据源位置,同时添加相关访问配置。
文本创作数据集去重策略说明 重复样本的定义 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。
目前,首批开源数据集已在百度百舸AI计算平台同步上线,支持一键启动分布式具身模型训练,将为更多具身智能企业及 开发者 提供标准化的数据及AI基础设施,助力具身智能机器人多场景泛化落地。 规模化之外, RealOmni数据集具备高鲜度、高场景深度、多模态融合等特点。
datasetName string 数据集名称 dataFormat string 数据格式,可选值如下: · PromptResponse:表示Prompt+Response · Role:表示Role(user+assistant) · SFT_FIM:表示Prefix+Suffix+Middle数据格式 · Text:表示纯文本 · DPO_PromptChosenRejected:表示DPO
数据集相关 获取数据集列表 使用以下代码可以获取数据集列表。