项目挑战 众所周知,视频生成产品的开发周期长且费用高昂。密集而快节奏的模型训练任务,不仅需要大规模的算力,还需要从数据准备到模型训练、再到模型推理的全链路保障。 大模型训练规模大,时间周期长,硬件、系统配置和软件的故障都有可能引起训练中断,集群无法持续有效训练。
DROP ANALYZE JOB 描述 删除指定的统计信息收集作业的历史记录。 语法 SQL 复制 1 DROP ANALYZE JOB <job_id> 必选参数 <job_id> :指定作业的 id。可以通过 SHOW ANALYZE 获取作业的 job_id。
您可以设置“监控项”、“统计周期”、“统计方法”、“阈值”、“重复几次后报警”、“报警等级”等指标。
在左侧菜单栏选择资源池,进入资源池列表页面,资源池列表页面已为您提供基本节点数量统计信息,若需继续查看更多详情,找到您想要查看的实例,单击资源池名称。 资源池详情页面。 查看数据概览。您可以查看节点/GPU状态统计。 节点状态统计:已分满、空闲可用、空闲受限可用(有污点)、空闲不可用(封锁或Not Ready)的节点数。
, endTime , interval ], properties :{ appId :{ type : array , items :{ type : string }, description : 应用ID,说明:\n(1)不填写该字段,默认查询全部应用 \n(2)通过[控制台-系统管理与统计
报警规则:下拉列表选择具体的报警指标、统计时间、统计项及输入最大统计阀值。 触发次数:用户输入每60秒触发的次数。 报警策略:云产品事件。 事件级别:从全部、故障、警告、预警、通知选择其一。 事件名称:用户可以点击全部或自定义,自定义需要在右侧复选框输入自定义名称。 !
表一 总览说明 名称 说明 规则设置率 数据质量支持的离线数据源(包括 DataBuilder 、Hive、Doris、Mysql、Oracle、SqlServer)下所有表的规则设置率统计。一个表如果设置了一个或多个质量规则,该表计为已设置,反之计为未设置。 质量异常占比 按照规则维度分类,统计各维度下质量任务规则结果触发告警(异常)的比例。
表一 总览说明 名称 说明 规则设置率 数据质量支持的离线数据源(包括EDAP数据湖、Hive、Doris、Mysql、Oracle、SqlServer)下所有表的规则设置率统计。一个表如果设置了一个或多个质量规则,该表计为已设置,反之计为未设置。 质量异常占比 按照规则维度分类,统计各维度下质量任务规则结果触发告警(异常)的比例。
还可以通过配置 数据预警 在数据发生异常时进行预警,异常的配置可以是度量值与固定值、度量统计值与固定值、度量值与统计值三种情况,在数据发生异常时进行邮件、微信等方式的预警。
需求场景 慢日志明细: 历史慢SQL实时统计,方便数据库管理员对慢查询语句进行分析,快速定位系统正在进行的性能问题。 错误日志明细: 开启和关闭MySQL服务的时间和服务运行中异常情况的统计,用于MySQL服务出现异常时,及时查找原因。