监控指标 本文为您介绍监控指标。 说明: 以下监控指标数据可通过控制台查看,查看方法请参见 查看监控 。
训练任务性能劣化(slow)诊断 背景 使用 大模型训练服务观测 功能,如何接入训练任务,在训练任务出现性能问题(slow)时如何诊断并解读诊断报告、分析问题。 前置条件 训练框架: PyTorch 接入任务 根据接入任务说明文档,部署采集器,接入训练任务。 训练任务出现在任务列表中表明任务已接入成功,为了后续能够查看
产品优势 百度智能云GPU云服务器聚焦弹性、易运维、高性能等核心特性,具备以下优势: 高性能: 提供业界高端的硬件配置,包含超高的RDMA通信带宽和全闪存的磁盘规格,充分发挥GPU的计算能力。 易用性: 支持自定义GPU运行环境,灵活变更实例规格,支持多种GPU监控指标。 弹性按需: 支持多种GPU虚拟化技术,提升业务对GPU资源的利用率。可弹性伸缩,秒级实现多台服务器的创建和释放。
创建自定义镜像 通过创建自定义镜像,您可以保存该轻量应用服务器的数据、创建包含相同配置的轻量应用服务器,也可以共享至BCC来创建BCC实例。 背景信息 创建自定义镜像前,您需要先阅读以下注意事项: 创建的自定义镜像所属地域与对应的轻量应用服务器所属地域相同。 每个账户的自定义镜像配额为20个,这20个自定义镜像均免费。 如果轻量应用服务器到期或者退款后释放,该服务器对应的自定义镜像会保留。
裸金属服务器Windows自定义镜像最佳实践 概览 本文介绍裸金属服务器制作Windows自定义镜像的前置准备步骤 需求场景 需要基于Windows镜像的裸金属服务器创建自定义镜像 配置步骤 打开powershell 在 Windows 操作系统中,你可以通过以下几种方式打开 PowerShell: 使用开始菜单: 点击 Windows 开始按钮(通常是左下角的 Windows 图标)。
您可在BCM中设置云服务器与弹性裸金属服务器的“云产品事件”的告警策略,以便您能够成功接收到相应实例的告警信息。 如无特殊要求,建议您将告警策略设置为对所有实例的所有故障事件的监控。 您可以在“报警策略”的“云产品事件”中,查看已设置的告警策略,可以针对实际告警需求,设置多条不同的告警策略;也可随时对策略进行修改、删除等操作。
具体使用说明请参考 端云协同服务说明 本地服务器部署价格说明 EasyDL已支持将定制模型部署在本地服务器上,只需在发布模型时提交本地服务器部署申请,通过审核后即可获得 一个月免费试用 。 如需购买 永久使用授权 ,服务器SDK用户请在 控制台 点击「购买正式授权」,并按照对应步骤激活。 服务器API用户请微信搜索“ BaiduEasyDL ”添加小助手咨询,通过线下签订合同购买使用。
具体使用说明请参考 端云协同服务说明 本地服务器部署价格说明 EasyDL已支持将定制模型部署在本地服务器上,只需在发布模型时提交本地服务器部署申请,通过审核后即可获得 一个月免费试用 。 如需购买 永久使用授权 ,服务器SDK用户请在 控制台 点击「购买正式授权」,并按照对应步骤激活。 服务器API用户请微信搜索“ BaiduEasyDL ”添加小助手咨询,通过线下签订合同购买使用。
查询异常检测配置列表 接口描述 分页查询异常检测配置列表。 请求结构 POST /msg/config/list 请求头域 无特殊请求头。 请求参数 参数 类型 是否必选 描述 示例 pageNum Int32 是 分页查询中的页号,从1开始 2 pageSize Int32 是 每页返回的记录数量 20 响应头域 无
新增事件异常检测配置 接口描述 添加原始消息的异常检测规则。默认情况,与异常检测规则匹配的原始消息,会保存其对应的图片和存证视频。原始消息、匹配异常检测配置的消息对应的图片和视频,默认保存1小时,过期会清理,也可以通过部署事件中心时修改环境变量,调整保存时长(单位小时)。 请求结构 POST /msg/config/a