功能概述
适用范围
仅适用于极速型L2。
应用场景
并行文件存储PFS推出生命周期功能,支持基于文件最后一次访问时间创建生命周期规则,定期对指定目录下的文件执行自动化数据治理操作,包括数据删除、数据转存、数据沉降。该能力适用于需要定期清理或分层管理长期未访问数据的场景,包括但不限于:
- AI 训练/大模型训练:训练过程中会生成大量中间训练产物、临时文件、检查点缓存等,这些文件在训练结束后通常无需长期保存。
- 自动驾驶数据处理:自动驾驶任务会产生大规模中间数据集和日志,可定期清理或沉降至低成本存储。
- 科研计算/HPC:项目类任务通常生成大量临时计算文件,需要在任务完成后自动清理空间。
- 长期归档与多温分层存储:针对历史数据集、过期日志、老模型数据等,通过转存或沉降降低成本。
通过设置生命周期规则,可实现目录级别的数据精细治理,帮助您大幅降低存储开销、提升数据管理效率。
注意事项
PFS生命周期功能当前为白名单功能,若需使用,请 提交工单 申请添加白名单。
功能说明
数据删除
功能说明:定期自动删除指定目录下的过期文件和空目录,且删除后不可恢复。
适用场景:
- 清理临时文件、中间训练数据等无需保留的数据
- 清除自动驾驶或训练任务结束后的临时缓存
- 清理过期或项目结束后不再使用的文件夹
典型示例:删除最近7天未访问的模型训练中间文件
操作步骤:数据删除
数据转存
功能说明:定期将指定目录下的文件转存至指定BOS Bucket中,并删除PFS中的原始文件。
适用场景:
- 数据需要保留,但不再需要高性能PFS存储访问
- 归档训练数据集、自动驾驶原始影像、实验数据等需要长期归档
- 降低存储成本,保留数据以备后续分析或审计
典型示例:将30天未访问的训练数据转存至BOS,以降低存储成本
操作步骤:数据转存
数据沉降
功能说明:将指定目录下的文件沉降至指定BOS Bucket,同时保留文件元数据并删除文件数据;当访问仅含元数据的文件时,PFS会按需从BOS Bucket 加载对应数据块进行读取。如后续需高频访问,可一键取回所有数据至PFS(同时删除BOS中的对应数据)
适用场景:
- 数据未来仍可能被访问,但访问频率较低
- 相比“数据转存”,更适合需要透明访问与快速取回的场景
典型示例:沉降60天未访问的训练样本,但保留元数据以支持后续任务透明访问或一键取回全部数据。
操作步骤:数据沉降
使用限制
- 当前1个PFS实例下仅能创建20条规则,如超过配额请手动删除或提交工单申请。
- 不支持对特殊文件(如FIFO特殊文件、特殊块文件、特殊字符文件和套接字文件等)和空文件执行过期数据数据删除/转存/沉降操作;
- 当目录同时配置了Fileset QoS和生命周期规则时,执行过期数据/转存/沉降操作不受Fileset QoS限制;
- 当目录或其子目录同时配置了生命周期和数据流动时,两个任务无法并发进行(即将支持),当前仅支持排队串行执行;
- 当单个实例下同时有超过20个生命周期和数据流动任务执行时,后续任务可能进入排队等待状态;
- 生命周期规则执行期间,不会删除/转存/沉降在本轮执行过程中新过期的文件/目录,这部分过期文件/目录将在下次执行时处理;
- 数据流动导出文件过程中会更新其最后访问时间,可能使原本已过期的文件/目录不再满足过期条件;
- 生命周期规则在生成待删除/转存/沉降的过期文件清单后,即使这些文件被再次读取,其过期时间也不会刷新,仍会按原计划继续执行数据删除/转存/沉降操作;
- 不支持为存在目录嵌套关系的PFS目录创建生命周期规则或数据流动任务。例如:某目录(如/pfs/test)的父目录(如/pfs)或子目录(如/pfs/test/data)已配置相关生命周期规则或数据流动任务(包含周期性任务及状态为未成功、未失败、未取消的一次性任务)时,则该目录不能再创建新的生命周期规则或数据流动任务;
- 过期文件完成数据转存/沉降后,会直接覆盖BOS路径下中同名文件;
- 部分场景下,生命周期规则可能漏扫个别过期文件导致未删除/转存/沉降,但无需担心,这些文件会在下一次任务执行时自动完成删除/转存/沉降。
常见问题
1.目录重命名或删除会影响生命周期规则执行吗?
答:规则是基于目录名称生效的。
- 如果目录被重命名,该目录下文件及子目录不再受原规则约束;
- 若目录被删除后重新创建同名目录,该目录下文件及子目录继续受原目录配置规则约束;
- 规则作用目录不存在,若希望规则可以正常删除目录下数据,可重新创建同名目录或将现有目录重命名为规则作用目录名。
2.当目录及目录下的文件同时过期时,为什么生命周期规则执行后只删除/转存过期文件,却未删除/转存过期目录?
答:当目录下有文件被删除/转存时,相关操作会更新该目录的最后一次访问时间。因此,该目录的过期时间会被延后,需要等目录下的最后一个文件被删除/转存后,再重新计算一个完整的过期时间,才能执行该目录的删除/转存操作。
