元数据发现 当数据存储在BOS中,而在 DataBuilder 还未与对应的元数据关联时,可以通过元数据发现,来构造这些数据对应的元数据信息,从而支撑用户的查询与分析,将半结构化数据转化为结构化数据。 任务管理 创建元数据发现任务 进入百度千帆数据智能平台 DataBuilder 控制台,单击页面中数据湖模块进入湖概览界面,或者单击侧边导航数据湖>元数据>任务管理(侧边导航)。
非读csv格式的数据集 非stream读text格式的数据集 非stream读parquet格式的数据集 非stream读arrow格式的数据集 非stream读webdataset格式的数据集 非stream读imagefolder格式数据集再以parquet格式写入新数据集 非stream读取videofolder格式数据集 非stream读取audiofolder格式数据集 stream读取
数据源申请 在企业或组织中,数据的管理和使用是至关重要的,为保障数据的安全性,通常需要对数据访问权限进行严格控制。 数据源权限申请功能允许用户根据自身的业务需求,申请对特定数据源的访问权限,包括访问和管理权限。 权限申请 用户可以根据实际工作需要申请相应的权限,而不是一刀切地分配权限,提高了资源使用的灵活性。 通过申请和审批流程,可以明确数据访问的责任人,便于事后审计和责任追究。
元数据申请 在元数据申请功能中,支持申请对数据库、数据表或数据列的权限,以便进行相应的数据操作和管理。
中也有单独的数据门户功能,详见 数据门户 。
查看数据集 数据标注完成后可在数据总览页查看数据情况 查看数据集 数据总览页展示数据集名称、数据集ID、数据量、标注类型、标注状态,鼠标放置在省略号处可查看数据集详细信息 点击【查看与标注】可查看数据集详情 支持查看数据集中数据标注情况,可手动删除数据集中的图片 支持一键删除失效图片 点击图片右下角查看大图,可查看放大图片 放大图片后可查看图片本地地址,点击可打开当前文件存储路径 数据集导出 支持将数据集导出到指定路径下
数据目录 前提条件 已配置好 DataBuilder 元存储。 已创建 DataBuilder 工作空间。 数据目录 数据目录为元数据第一层,支持在数据目录中创建数据模式。 创建数据目录 登录 DataBuilder 控制台,在选中的工作空间操作列单击 打开 按钮,进入空间内。 侧边导航选择元数据,进入元数据后单击添加按钮新建数据目录。
数据卷 数据卷 数据卷为元数据中第三层,支持在数据模式中创建数据卷。用数据卷来管理非结构化数据。 创建数据卷 登录 DataBuilder 控制台,在选中的工作空间操作列单击 打开 按钮,进入工作空间。 侧边导航选择元数据,进入元数据后在数据目录树上单击要创建数据卷的数据模式名称,在详情页面右上方单击立即创建 > 创建数据卷按钮。 系统跳出创建数据卷页面,在创建页面填写对应配置项,填写完成确定。
数据建模 概述 数据建模是一种分析与设计方法,用于定义分析数据需求,设计满足需求的数据结构,是反应数据需求和设计的数据说明与相关模型图的集合。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。
脏数据策略 下拉选择脏数据策略:不容忍脏数据 / 容忍部分部分脏数据 / 忽略脏数据。 脏数据容忍度 当脏数据策略选择容忍部分部分脏数据,需填写此项。选择百分比或条数,然后填入相应数字。 是否写入脏数据 当脏数据策略选择不容忍脏数据或忽略脏数据,需填写此项。选择是/否。 脏数据存储路径 当是否写入脏数据选择是,需填写此项。填写脏数据存储路径,数据格式为CSV。