配置训练任务的消息通知
更新时间:2024-09-23
百舸平台针对于训练任务的状态变化,提供了通知的机制。下面将介绍如何配置任务状态变化通知。
前提条件
- 资源池已经接入百度云Prometheus监控服务。请参考资源池接入Prometheus监控实例。
操作指南
- 登录百舸控制台。
- 单击 训练任务,进入训练任务列表页面
- 单击 创建任务,进入创建训练任务的流程
-
在 高级配置 模块中,针对于任务维度开启告警选项,参数如下:
参数 描述 任务状态 目前支持通知的状态:
1.任务进入运行状态:任务进入运行状态
2.任务失败退出:任务失败退出
3.任务成功结束:任务成功结束
4.任务hang:所有训练Worker在指定的时间内,没有日志更新,则初步判断任务hang住,用户可自定义任务hang的阈值通知策略 基于百度云Prometheus监控服务的通知策略能力,支持选择邮件、短信、电话、钉钉、企业微信、飞书等机器人 Webhook 地址。
您可以选择已有策略,也可以新建策略 - 点击完成创建训练任务。当任务的状态 匹配上述配置告警的规则后,即可触发告警通知