批量处理
更新时间:2024-07-09
概述
批量处理功能支持用户对 BOS 存储桶内指定的对象列表执行指定的批量处理操作。您首先需要指定一份待处理对象清单,完成批量处理任务配置后,BOS 即可根据清单执行批量处理任务。
说明: 目前仅支持对华北-北京、华东-苏州、华南-广州地域的存储桶中的文件进行批量处理操作。
批量处理任务类型
目前支持的批量处理任务类型包括:批量数据复制和批量取回归档文件。
- 批量数据复制:将指定源 Bucket 中的部分或全部对象复制到指定目标 Bucket 的指定目录下,支持为复制后的对象选择新的存储类型、对象元数据、访问权限等配置信息。如遇数据复制的源 Bucket 和目标 Bucket 所在地域不同,会产生跨区域流出流量费用。
- 批量取回归档文件:通过配置一个批量取回任务批量取回归档文件,取回后自动生成一份标准存储类型的临时副本文件,在有效期内该副本文件可以正常读取,不受取回限制。
创建批量处理任务
准备工作
准备清单文件:目前支持的清单格式包括 BOS 清单报告和 CSV 文件。
- BOS 清单报告:BOS 可根据用户的清单任务配置,定期扫描用户 Bucket 中指定对象并输出一份清单报告,以 CSV 格式文件的形式存储到指定的 Bucket 中。如何设置清单可参见 设置存储空间清单。
-
CSV 文件:
- 创建 CSV 格式的待处理对象清单列表。清单列表是记录所有待处理对象的列表文件,用于告知BOS待处理的文件。自定义的CSV文件支持指定为,每行两列,并按照文件所属Bucket名称、文件名称(Key值)顺序排列。如下图:
- 将自定义 CSV 文件上传至存储桶。
使用控制台创建批量处理任务
- 登录 对象存储 BOS 管理控制台。
- 在控制台左侧全局导航栏中选择 数据魔方-批量处理 入口,进入批量处理任务管理页面。
- 点击创建任务,开始创建批量处理任务。
- 配置项说明如下:
模块 | 参数 | 说明 |
---|---|---|
清单文件配置 | 清单格式 | BOS 清单报告 |
CSV 文件 | ||
清单存储桶 | 清单文件所在的 Bucket | |
清单文件路径 | 清单文件的具体路径。若您选择的清单格式为:
| |
任务配置 | 任务类型 | 批量数据复制 |
批量取回归档文件 | ||
任务优先级 | 任务优先级用于标识当前批量处理任务相对于其他批量处理任务的优先状态,数值越大优先级越高。优先级数值范围为0 - 2147483647。 | |
任务描述 | 对该任务进行描述,长度100个字符,支持中英文数字及特殊字符。 | |
生成配置 | 任务报告范围 | 全部操作记录 |
仅记录失败操作 | ||
报告投递 Bucket | 存储报告的 Bucket。 | |
报告投递前缀 | 报告的名称目录前缀。 |
不同任务类型下的参数配置说明如下:
任务类型 | 参数 | 说明 |
---|---|---|
批量数据复制 | 目标Bucket | 复制后的数据存放的 Bucket。 |
前缀操作 | 可选择根目录或设置前缀。对复制后的文件的前缀或目录前缀进行添加、替换或者删除。 | |
对象元数据 | 对复制后的对象设置元数据,可选复制所有元数据、替换所有元数据:
|
|
服务端加密 | 不加密 | |
BOS 托管密钥 | ||
访问权限 | 与目标 Bucket 一致 | |
设置为公共读 | ||
设置为私有 | ||
批量取回归档文件 | 副本有效期 | 副本在多少天后自动过期删除,范围为 7-30 天。 |
取回模式 | 目前支持标准取回。 |
- 确认无误后,单击 确定 创建批量处理任务成功。
- 创建成功后,可在批量处理任务列表中查看任务的状态、进度、详情等。当任务状态为准备中或进行中时,可取消任务。当任务状态为等待启动/取消中/已取消/已完成/任务失败时,可删除任务。
- 任务列表中的批量处理任务在任务结束后保留90天,过期将自动删除。