增量迁移说明
更新时间:2024-11-20
增量迁移概述
CloudFlow 支持增量迁移功能,即将源端不断写入的新数据持续同步到 BOS。
增量迁移若采用定时扫描策略对源端 Bucket 进行持续扫描,然后周期性将扫描到的新文件同步到 BOS 目的端 Bucket。若您需要进行增量迁移,您需要在创建任务时设置扫描周期。扫描周期为小时粒度,最小间隔周期为 1 小时,最大间隔周期为 1 周。
举例说明:
- 用户 A 首次全量迁移任务开始时间为 2020-09-09 10:00:00,且第一次全量迁移花费 3 天 3 小时,全量迁移结束时间为 2020-09-12 13:00:00,此时意味着 2020-09-09 10:00:00 之前的存量文件全部迁移完成。
- 若用户 A 设置了 1 小时周期的定时扫任务,那么 CloudFlow 会在 2020-09-13 14:00:00 开始对 2020-09-09 10:00:00 到 2020-09-13 14:00:00 之间的文件进行增量扫描迁移;2020-09-13 15:00:00 开始对 2020-09-13-14:00:00 到 2020-09-13-15:00:00 间产生的增量数据进行扫描迁移。每个扫描周期结束后,该周期内产生的增量文件将自动迁移到 BOS。
增量迁移扫描周期设置建议
您需要根据增量迁移文件数量选取合适的扫描周期。CloudFlow 对 100 万级文件数量扫描一轮耗时约 4 分钟左右,1000 万级文件数量扫描一轮耗时约 1 小时左右。因此,如果您源端迁移文件总量在 1000 万级以内,您可以设置扫描周期为 1 小时。若您的源端迁移文件总量在 2000 万级以内,您可以设置扫描周期为 2 小时,以此类推。
若扫描任务未在设定的扫描周期内完成,该周期的扫描任务将持续进行,不会开始下一轮扫描,直到该轮扫描任务结束后,下一轮任务才会开始。源端扫描需要使用源端 List 操作对文件进行列举和比对,因此扫描会在源端产生一定的 API 调用费用,因此建议您根据源端文件数量设置合适的扫描周期。
请注意,增量迁移扫描速度会受文件的数量影响,若您任务的路径下文件数量过多,会出现增量迁移扫描缓慢的情况。