左侧菜单栏单击 训练任务 ,进入训练任务列表页面 选择需要查询的训练任务,单击 监控 ,即可查询该任务的监控大盘 监控指标及说明 当前任务资源监控主要支持:任务维度、实例维度、GPU卡维度、RDMA网卡维度以及节点维度的监控 任务维度 面板组 指标 描述 GPU GPU算力使用率(任务维度) 指定任务的GPU算力使用率 GPU显存使用率(任务维度) 指定任务的GPU显存使用率 GPU SM设备使用率
在指定Bucket上设定一个跨域资源共享规则 接口说明 本接口用来在指定的Bucket上设定一个跨域资源共享(CORS)的规则,如果原规则存在则覆盖原规则。 权限说明 只有Bucket的所有者和被授予FULL_CONTROL权限的用户才能设置Bucket的CORS。没有权限时,返回403 Forbidden错误,错误码:AccessDenied。
3、一组任务使用一个DAG来表示,使用图形表达流程逻辑更加清晰。 4、支持很多种任务调度,能完成大部分hadoop任务处理。 5、程序定义支持EL常量和函数,表达更加丰富。 Oozie的功能模块介绍 模块 Workflow:顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)。 Coordinator:定时触发workflow。
任务进度恢复 从 status.log 里可以看到相应的文件列表具体的迁移进度,如果client崩溃了可以从日志中找到相应的 断点 恢复迁移,进度恢复是根据任务列表(list)的粒度来进行的。
关闭指定Bucket上设定一个跨域资源共享规则 接口说明 本接口用于关闭指定Bucket的CORS功能并清空所有规则。 权限说明 只有Bucket的所有者和被授予FULL_CONTROL权限的用户才有权限删除CORS规则。 注意事项 当所对应的Bucket不存在时,会返回错误404 Not Found错误,错误码:NoSuchBucket。
任务升级流程 成功创建的任务会在产品线的任务列表中生成卡片,卡片展示任务基本信息及任务状态。点击卡片进入任务详情,以任务流的形式展示当前任务状态,用户可点击已完成的任务流程查看已完成的流程信息 1.测试验证阶段 任务在测试验证阶段,页面会展示测试时间、测试设备数、成功升级数、测试设备升级率和当前测试状态。
升级配置 测试阶段升级范围:创建正式任务后,会首先进入测试阶段,测试阶段只对指定的测试设备分组内的设备进行下发;如为测试任务,则只针对指定的测试设备下发。 升级范围:可选择全量升级或定量升级,此选项在任务在正式下发时生效,如为定量,含义为可接收升级请求的设备数量。 升级方式:可选择提示升级或静默升级,选择提示升级时,必须录入升级提示信息,用于在设备端向用户说明版本信息。
查看一个fabric网络中是否已经有同名channel 查看一个fabric网络中是否已经有同名channel 接口描述 查看一个fabric网络中是否已经存在同名channel。 权限说明 请求发起人需要具有合法的AccessKeyID和SecretAccessKey才能发起请求。
单击 训练任务 ,进入训练任务列表页面 单击 创建任务 ,进入创建训练任务的流程 在 高级配置 模块中,针对于任务维度开启 告警 选项,参数如下: 参数 描述 任务状态 目前支持通知的状态: 1.任务进入运行状态 2.任务失败退出 3.任务成功结束 4.任务hang:需要用户首先开启hang检测功能 5.任务发生容错 6.任务所在节点出现故障 通知策略 基于百度云 Prometheus监控服务 的
创建传输任务 任务信息 在日志服务页面中点击“传输任务”,进入传输任务列表页面后,点击“创建传输任务”,进入创建传输任务页面。 在“任务信息”区,请输入任务名称。 为该任务添加标签,便于进行分类管理与查找。 目的端设置 在“目的端设置”,设置日志数据投递目的端。