配置任务的消息通知
更新时间:2024-02-19
百舸平台针对于训练任务的状态变化,提供了通知的机制。下面将介绍如何配置任务状态变化通知。
前提条件
- 资源池已经接入百度云Prometheus监控服务。请参考资源池接入Prometheus监控实例。
操作指南
- 登录百舸控制台。
- 单击 训练任务,进入训练任务列表页面
- 单击 创建任务,进入创建训练任务的流程
-
在 高级配置 模块中,针对于任务维度开启告警选项,参数如下:
参数 描述 任务状态 目前支持通知的状态:
1.任务进入运行状态:任务进入运行状态后,发送消息提醒
2.任务失败退出:任务失败退出后,发送消息提醒
3.任务成功结束:任务成功结束后,发送消息提醒
4.任务hang住:任务进入hang状态,发送消息提醒。
4.1. 任务hang判断规则:训练worker实例的进程IO在指定的时间内没有任务变化,则初步判断任务hang住。用户可以自定义时间阈值,默认值10min通知方式 支持邮件和短信的方式 通知对象 支持用户选择百度云的子用户作为通知对象 - 点击完成创建训练任务。当任务的状态 匹配上述配置告警的规则后,即可触发告警通知