快速上手
DataBuilder提供多模态数据管理、高性能计算、智能开发平台和丰富算子能力,支持用户完成一站式数据治理、数据加工和数据应用,本文以DataBuilder的部分核心功能为例,指导您使用DataBuilder接入非结构化数据并进行数据处理、写入元数据、查看处理结果。
入门简介
通过本快速入门,您可以快速完成以下操作。
- 多模态数据管理:在DataBuilder的元数据管理模块,创建数据卷,将本地视频上传至平台。
- 计算资源:在DataBuilder的计算资源模块,创建Ray计算资源,并支持GPU规格。
- 数据处理:在工作流模块,利用预置模版,创建多模态数据处理工作流,对数据卷中视频内容进行总结生成文本。
前提条件
在公有云官网已申请DataBuilder白名单,推荐使用具有 DataBuilderFullControlAccessPolicy权限的 DataBuilder 用户。
准备工作
- 开通百度智能云账号
使用手机号,开通百度智能云账号。
- 开通DataBuilder
本教程以 保定 地域为例,介绍DataBuilder快速入门,您需要登录DataBuilder管理控制台,切换至 保定 地域,查看该地域是否开通DataBuilder,如未开通请先开通。
- 在IAM添加子用户
单击多用户访问控制
创建子用户并授予以下3个策略:DataBuilderFullControlAccessPolicy、IAMReadAccessPolicy、BOSLISTANDReadAccessPolicy。
- 登录子用户
利用子用户登录百度智能云,并进行下一步操作。
- 创建BOS Bucket
为多模态数据、产品任务运行的日志等指定存储位置,登录BOS管理控制台,在 保定 地域,创建Bucket 用于DataBuilder数据存储的。
- 创建私有网络
为常驻计算资源绑定VPC资源,登录私有网络VPC控制台,在 保定 地域,创建私有网络。并创建私有网络子网。
操作步骤
第一步 创建空间
创建用于多模态数据管理及处理的工作空间,指定空间作业及日志的存储位置(已经创建的BOS Bucket)。
第二步 创建元存储
创建该租户下唯一的元存储,并指定全局数据默认的存储位置(已经创建的BOS Bucket)。
第三步 创建计算资源
进入工作空间,创建Ray计算资源,选择已经创建的VPC网络,指定GPU规格。
第四步 创建数据卷
- 创建数据卷
进入工作空间,创建两个数据卷,一个用于源端数据存储,另一个用于目标端数据存储,在元数据下逐级创建目录 -> 库 -> 数据卷。
- 上传视频
在已经创建的源端数据存储数据卷下,上传用户本地的一个小视频。
第五步 数据处理
- 创建视频生文工作流
利用产品预置【视频处理工作流】模版,创建工作流,修改 source 输入端节点路径为上传视频的数据卷,修改 sink 输出端节点路径为目标端数据卷,修改计算资源 clusterId 参数为已创建的计算资源ID,修改完成后运行任务。
- 查看处理结果
待任务运行成功后,在目标端存储数据卷查看视频数据解析结果。