数据卷
更新时间:2025-10-24
数据卷
数据卷为元数据中第三层,支持在数据模式中创建数据卷。用数据卷来管理非结构化数据。
创建数据卷
- 登录 DataBuilder 控制台,在选中的工作空间操作列单击 打开 按钮,进入工作空间。
- 侧边导航选择元数据,进入元数据后在数据目录树上单击要创建数据卷的数据模式名称,在详情页面右上方单击立即创建 > 创建数据卷按钮。
- 系统跳出创建数据卷页面,在创建页面填写对应配置项,填写完成确定。
- 创建完成的数据卷在左侧数据目录树展示,单击名称可查看数据卷详情。
表1 创建数据卷配置项说明
| 配置项名称 | 说明 |
|---|---|
| 数据卷名称 | 输入数据卷名称,必填。支持输入 大小写字母、数字、下划线,1-64字符。 注意:数据卷名称在数据模式中不可重复。 |
| 数据卷类型 | 两种类型可选,内部数据卷 或外部数据卷。 内部数据卷 会在元存储对应的路径下统一管理;外部数据卷为挂载形式,支持用户将其他BOS路径上的数据挂载到Databuilder。 |
| Bos路径 | 在选择外部数据卷的需要填写对应的BOS存储路径。 注意:BOS路径需要和工作空间在同一个地域。 |
| AccessKey | 在选择 外部数据卷的需要填写 AccessKey。 |
| SecretKey | 在选择 外部数据卷的需要填写 SecretKey 。 |
| 描述 | 填写数据卷描述。支持输入大小写字母、数字、下划线等各种特殊字符,0-150字符。 |
上传文件到数据卷
- 在数据卷页面右上方单击上传数据到数据卷 按钮,将文件夹或多个文件拖到对应区域或者单击点击上传按钮后,上传对应文件。
- 在上传过程中,在页面右下方可查看文件上传情况和进度。
- 上传成功的文件以列表形式展示,可以对文件进行复制路径、删除或下载操作。
- 复制路径:单击按钮复制文件在 DataBuilder 的文件路径。
- 预览:单击预览按钮,可预览文件,查看文件的详情。支持右上角复制文件路径和下载文件。注意:平台仅支持以下格式的文件预览:txt、csv、json、yaml/yml、log、md、xml、png、jpg/jpeg、bmp、gif、svg、webp、tiff/tif。
- 删除:单击删除按钮系统再次提示,确认无误后单击确认按钮,数据卷删除成功。注意:删除的数据卷无法恢复,请您谨慎操作。
- 下载:单击下载按钮后文件可以通过浏览器下载到本地。
注意:
- ⽬标数据⽬录下如果存在同名⽂件,将被新上传的⽂件覆盖。
- 每次上传的总文件大小不超过500MB,单个文件不超过100MB;每次最多上传100个文件。
查看数据卷
左侧数据目录树选择数据卷后,右侧展示数据卷的详细内容,可以通过单击切换查看概览或详情。
概览
在概览页面可以查看数据卷描述、数据卷的文件路径和上传文件列表。单击描述旁边修改按钮可以对数据卷的描述进行修改。
详情
详情页面可查看关于数据卷的详细信息,包括创建人、创建信息等。
数据血缘
- 数据血缘列表:在数据卷详细信息页面通过tab切换选择数据血缘,查看关联对象、血缘图谱等。支持按照关联对象进行搜索,同时可通过时间(最近一周、最近1个月、最近3个月、最近6个月、最近1年)、数据路径(可选择当前数据卷下已产生血缘关系的数据路径,选择全部则下方列表是从整卷级汇总的一层上下游,选择某一数据路径则是某个数据路径对应的一层上下游)进行筛选。
列表右上方单击查看血缘图谱可详细查看数据血缘图谱,图谱可通过时间(最近一周、最近1个月、最近3个月、最近6个月、最近1年)进行筛选查看。
表2 数据血缘列表项
| 列表项名称 | 说明 |
|---|---|
| 关联对象 | 显示与当前数据卷存在数据血缘关系的对象。 |
| 上 / 下游 | 标识关联对象相对于当前数据卷的位置关系。 |
| 类型 | 说明关联对象的类型,类型分为全部、Notebook、工作流、数据集成、数据表、数据路径。 |
| 最近活跃时间 | 记录关联对象最近一次与当前数据卷产生数据交互或活跃的时间。 |
- 数据血缘图谱:列表右上方单击查看血缘图谱可详细查看数据血缘图谱,图谱可通过时间(最近一周、最近1个月、最近3个月、最近6个月、最近1年)、数据路径(可选择当前数据卷下已产生血缘关系的数据路径,选择全部则下方列表是从整卷级汇总的一层上下游,选择某一数据路径则是某个数据路径对应的一层上下游)进行筛选查看。
图谱支持操作:
- 节点查看详情:用户选择任意一个数据表/数据路径节点,右侧展开节点详细信息。数据表信息包括名称、创建人、数据源格式、字段信息和血缘信息。数据路径包括名称、创建人、具体文件路径和血缘信息。
- 单击连线查看血缘链路详情:用户点击连线,右侧展开血缘链路详细信息。展示源对象、目标对象、最近活跃时间和血缘采集来源。
- 单击表字段现实字段级血缘:单击表字段,展开字段列表并高亮当前字段的上下游链路。
- 展开节点上下游:默认仅展示当前对象上下游各1层,可逐层展开,未展开上下游的节点会有对应的上下游节点展开按钮,单击后刷新图谱,刷新完成后显示对应上下游内容。
- 其他操作:支持恢复默认图谱、居中视图、全屏查看、缩小和放大。
- 数据血缘采集来源
表3 来源说明
| 模块 | 支持场景 |
|---|---|
| 数据集成 | 支持文件离线采集、库表离线采集、库表实时采集任务自动解析相关血缘 |
| Notebook | 支持Spark SQL、Doris SQL、Spark python自动解析相关血缘 |
| 工作流 | 支持文件采集、库表采集、notebook、SparkJar任务、PySpark任务节点自动解析相关血缘 |
修改数据卷名称
数据卷的名称支持修改,在数据卷详情界面右上角更多按钮展开后单击重命名数据卷按钮,输入新的数据卷名称后确定即可。注意:新名称在数据模式中不可重复。
删除数据卷
在数据卷详情界面右上角更多按钮展开后单击删除数据卷按钮,系统会弹出提示框,确认无误后单击确定,数据卷删除成功。
注意:
- 删除后的数据卷无法恢复,请您谨慎操作。
