推理服务监控告警 前置依赖 需要拥有BCMFullControlAccessPolicy权限才能完整查看BCM监控面板和配置BCM报警策略。
报警策略能设定监控项阈值和通知方式,当某个监控项达到阈值时,自动给用户发送报警信息通知用户。
附录-监控指标内置标签说明 百舸平台在监控指标体系中内置的标准标签(label) ,用于对训练任务与资源进行统一标识与多维度区分。平台会自动在系统级与自定义监控指标中附加这些标签,无需用户手动维护,主要用于任务溯源、按租户/队列/地域等维度进行统计与运维分析。
训练效果监控Tensorboard 概述 TensorBoard是一个用于可视化TensorFlow模型训练过程和结果的工具。它可以帮助开发人员和研究人员更好地理解和调试他们的模型,从而提高模型的性能和效率。百舸AI计算平台AIHC中集成了Tensorboard的能力,本文将介绍如何在百舸平台使用Tensorboard。
卸载方法 Centos机器 Plain Text 复制 1 yum remove bcm-tool Ubuntu机器 Plain Text 复制 1 apt-get remove bcm-tool
事件概述 事件概述 事件是状态变化的数据记录。本文介绍事件总线EventBridge的事件参数详情。 事件源发布事件到事件总线EventBridge需要按照CloudEvents规范。关于CloudEvents规范的更多信息,请参见 CloudEvents 1.0 。 以下是事件源发布到事件总线EventBridge的
BcmClient 新建BCM Client BCM Client是BCM控制面服务的客户端,为开发者与BCM控制面服务进行交互提供了一系列的方法。 使用AK/SK新建BCM Client 通过AK/SK方式访问BCM,用户可以参考如下代码新建一个BCM Client: Go 复制 1 import ( 2 "
全局概览 全局概览 全局概览展示所有大模型应用整体的概览分析数据,查看所有应用的大模型调用和Token分析等数据。 概览数据: 面板 说明 应用数 已接入大模型应用数 LLM大模型数量 所有应用在指定时间段使用的大模型数量 LLM模型调用次数 所有应用在指定时间段产生的大模型调用次数 Token用量 所有应用在指定时间
BcmClient 新建BcmClient BcmClient是BCM服务的客户端,为开发者与BCM服务进行交互提供了一系列的方法。 通过AK/SK方式访问BCM 1.在新建BcmClient之前,需要先创建配置文件对BcmClient进行配置,以下将此配置文件命名为 bcm_sample_conf.py ,具体配置信
通知模版 查询用户组列表 请求结构 method:POST URL:/json-api/v1/alarm/notify/group/list 请求参数 名称 类型 描述 是否必须 参数位置 name String 用户组名称 否 RequestBody参数 pageNo int 分页数 是 RequestBody参数