开发机监控 开发机实例支持查看和监控资源使用情况,提供多个维度的加速芯片、CPU/内存、网络、磁盘等详细监控指标,帮助您实时掌握实例负载状态。 使用百舸控制台查看监控页面 在开发机实例列表页单击实例名称进入详情页,单击切换至监控页签。在此监控页面您可查看实例的实例维度、加速芯片维度、共享存储维度的详细监控指标。 各维度的监控指标项不同,方便用户在不同维度视角结合运行的程序感知开发机的状态。
媒资库接口 普通素材 用户上传音频/视频/图片到素材库,创作视频时可从素材中心查询该素材,并导入任务中使用 上传素材 接口描述 用户上传音频/视频/图片到素材库 请求(Request) 请求语法: Http 复制 1 POST /v{version}/matlib?
使用限制 仅支持满足如下条件的任务开启高精度监控: 任务实例数>=2个 任务开启RDMA加速 RDMA网卡监控(250ms精度)的监控指标保留最近30天,RDMA网卡监控(10ms精度)仅保留最近1天 操作步骤 1.创建训练任务&开启高精度监控 登录 百舸AI计算平台AIHC控制台 。
千帆大模型平台 ModelBuilder 千帆大模型平台 ModelBuilder包含预置服务(System)、定制服务(Custom)2种监控对象类型,实例监控包含的监控指标列表如下: 预置服务(System) 指标英文名称(metric name) 指标中文名称 单位 维度 备注 SystemInternalErrorCode 系统内部错误 次 error_code,serviceId,appId
3)视频监控共享平台的上级为上级视频监控共享平台、公安视频图像分析系统、公安视频图像应用平台、公安视频图像联网平台、在线视频图像信息采集系统; 4)在线视频图像采集设备通过国标接入视频监控共享平台; 5)公安网内国标对接同上。
训练效果监控Tensorboard 概述 TensorBoard是一个用于可视化TensorFlow模型训练过程和结果的工具。它可以帮助开发人员和研究人员更好地理解和调试他们的模型,从而提高模型的性能和效率。百舸AI计算平台AIHC中集成了Tensorboard的能力,本文将介绍如何在百舸平台使用Tensorboard。
训练任务资源监控 百舸平台针对于训练任务的资源使用,提供了全面的监控指标,帮助您更好地掌握资源负载情况。下面将介绍如何查询训练任务的监控。 前提条件 资源池已经接入百度云 Prometheus监控服务 。请参考 资源池接入Prometheus监控实例 。 已经创建训练任务,详情可参考 创建任务 。 查询入口 登录 百舸控制台 。
123数字人视频合成接口 接口说明 只需对着镜头说十秒123,即可快速输出口播成片 支持输入文本或音频驱动数字人生成视频,该功能仅支持固定背景视频 1、调用视频合成任务接口,提交数字人底板视频和驱动文本、音频,返回任务ID 2、接收任务结束的回调通知,或使用任务ID轮询任务状态(不建议) 接口调用域名: https://open.xiling.baidu.com 接口鉴权和通用字段说明请查阅: 接口通用说明
查看集合通信监控 登录 百舸AI计算平台AIHC控制台 。 左侧菜单栏单击 分布式训练 ,进入训练任务列表页面 选择需要查询的训练任务,单击 监控 > 集合通信带宽监控, 即可查询该任务的集合通信监控大盘
附录-监控指标内置标签说明 百舸平台在监控指标体系中内置的标准标签(label) ,用于对训练任务与资源进行统一标识与多维度区分。平台会自动在系统级与自定义监控指标中附加这些标签,无需用户手动维护,主要用于任务溯源、按租户/队列/地域等维度进行统计与运维分析。