方案介绍 Flash Ckpt核心思路 :Checkpoint保存与模型训练过程重叠,降低Checkpoint保存占用GPU训练的有效时间。 收益 分别针对 7B,70B,130B三种参数规模的模型训练进行对比测试,百舸FlashCkpt相比于原生的Ckpt方案,单次保存耗时最高减少93到99% 。
LogStore操作 创建LogStore 创建日志集,命名日志组时,需遵循以下准则: 每个账户每个区域日志集名称不能重复 日志集名称长度不能超过 128 个字符 日志集名称包含的字符仅限于: a-z, A-Z, 0-9, '_', '-', '.' 日志集租期,最大3650天,表示永久保存。
请求参数 参数名称 类型 是否必须 参数位置 描述 project String No Query 日志组名称,默认default logStoreName String Yes Path 日志集名称 retention Int Yes RequestBody 日志集的租期,最大3650天,表示永久保存。单位:天数 响应 响应头域 除公共响应头域外,无其它特殊头域。
请求参数 参数名称 类型 是否必须 参数位置 描述 project String No RequestBody 日志组名称,默认default logStoreName String Yes RequestBody 日志集名称 retention Int Yes RequestBody 日志集的租期,最大3650天,表示永久保存。
确认信息后,点击 确定 按钮,完成参数模版保存。
LOGGENERATIONS:日志保留时间,单位为天。默认保留时间为28天,建议修改为7天,避免大量占用磁盘空间。 LOGPATH:日志保存路径。默认路径为/var/log/atop/ 你可根据实际情况,修改监控周期和日志保留时间。
LogStream操作 LogStream会在推送日志时自动创建,目前暂不支持对LogStream的删除操作 获取LogStream列表 通过以下代码,获取指定日志集的日志流列表。
stopped LogStore因为欠费而不能写入了 403 LogStoreNotFound LogStore not found LogStore 不存在 404 示例 请求示例 GET /v1/logstore/demo/logrecord?
部分会用具体的名称来替换 示例 请求示例 GET /v1/logstore/demo/logstream?
stopped LogStore因为欠费而不能写入了 403 LogStoreNotFound LogStore not found LogStore 不存在 404 ExecutionTimeout [msg] msg 为具体的错误内容 408 LogStoreNotReady LogStore not ready LogStore还在初始化中 409 示例 检索语句 请求示例 GET /1/logstore