使用方法 AIAK推理加速支持多产品使用,本文档以加速ResNet50为例子介绍如何在GPU云服务器中使用AIAK推理加速组件,如您需要结合百度智能云容器服务引擎,可参考云原生AI使用文档。 TensorFlow框架 登录百度智能云GPU实例。 提交 工单 获取最新的加速包下载链接。 准备业务需要的模型,此处以ResNet50为示例。
配置域名动态加速规则 Method Path 说明 PUT /v2/domain/{domain}/config?
查询动态加速域名列表 Method Path 说明 GET /v2/dsa/domain 查询动态加速域名列表 响应体 (Response Body) 参数 可选 类型 说明 domains 必选 List<DSADomain> 动态加速域名列表 DSADomain结构如下: 参数 可选 类型 说明 domain 必选 String 加速域名 rules 必选 List<DSARule
动态加速日志 获取动态加速日志 用户开启动态加速服务后,可以在日志管理中查看一段时间内产生的动态加速日志。 登录 CDN管理控制台 ,进入“内容分发网络CDN”页面。 在左侧导航栏点击 日志管理 ,选择 动态加速日志 页签。 选择要查询的动态加速域名和时间段,最大支持查询180天内的日志。 点击 查询动态加速 ,即可在下方查看日志列表。 点击对应日志后的 下载 可以下载该条日志。
AI Job Scheduler组件 AI Job Scheduler组件,包含关键指标总览、队列排队总览、集群/队列超限总览、Pod调度性能总览、任务调度性能总览和调度器调度阶段延迟总览。 前提条件 AI Job Scheduler版本 >= 1.7.9 已接入监控实例 需启用采集任务,具体参考文档: 接入监控实例并启用采集任务 使用方法 登录 百舸异构计算平台AIHC控制台 。
GPUManager组件 GPUManager组件,包含异常pod 统计、cpu利用率和memory使用量。 前提条件 已接入监控实例 需启用采集任务,具体参考文档: 接入监控实例并启用采集任务 使用方法 登录 百舸异构计算平台AIHC控制台 。 在左侧导航栏 资源池 中选择您想要查看监控大盘的 资源池名称 ,并点击右侧操作中的 资源观测 。
提供高性能网络 https://cloud.baidu.com/doc/CCE/s/Qkp81mtzj CCE CSI PFS Plugin 支持在Pod中以PV/PVC方式挂载百度云PFS存储,并支持动态创建PV https://cloud.baidu.com/doc/CCE/s/slc792j5c CCE Node Problem Detector 实时检测节点上各种异常情况,并将检测结果上报至集群
具体的解决方案和步骤如下: 步骤1:开启CDN上行加速功能 登录控制台并打开需要开通上行加速的 Bucket 发布管理页面,开启该 Bucket 的 CDN 官方加速,并开通 CDN 动态加速功能,开启后会产生 CDN 动态加速费用。 详细的开启方法请参考 控制台操作指南-数据发布-CDN上行加速 。
HAS-agent组件安装与升级 介绍 硬件感知服务(Hardware-Aware Service,或称HAS)是一款线上硬件故障监控修复、功耗和资源管理工具,主要功能包括故障感知、功耗感知、资源感知、性能感知四大部分,提供了一系列的线上硬件的配置/状态监控,故障检测与修复,健康预警,功耗、擦除及相关硬件自动化管理功能,并提供统一的硬件资源状态查询、推送和管理接口。
2、再在右侧数据绑定面板中,绑定动态面板的当前值,在数据值等于当前值时,就会触发展示对应的状态。 手动切换: 请参考 组件之间的协同工作