GPU节点资源 GPU节点资源,包含占用GPU的Pod数量、GPU卡分配情况、GPU卡使用情况、GPU&Memory总量、GPU&Memory利用率、GPU卡平均利用率、GPU卡利用率、卡平均显存利用率、卡显存利用率、GPU利用率、Memory利用率和运行中的占GPU的Pod列表。
如何检测RDMA常见故障 在GPU云服务器使用过程中可能会出现RDMA硬件故障或者亚健康状态,如果您发现应用程序出现报错或者RDMA硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例等方式修复,如果问题持续发生,请您提交工单。 网卡状态检测 您可通过以下检测方法,判断当前实例是否存在网卡状态故障。 检测步骤 登录实例。
GPU共享功能仅支持NVIDIA GPU amd64架构。 安装GPU共享功能后,与节点关联的应用可以配置应用的GPU资源限制。如未安装GPU共享功能,应用即使设置GPU资源限制,也无法生效,并且应用也无法在设备上部署运行。 依赖条件 先完成 NVIDIA GPU资源监控 。
GPU资源调度-显存隔离 1 功能说明 GPU显存 隔离 在GPU显存 共享 的基础上,加入了显存资源 逻辑隔离 的能力。两者主要区别如下: 通过显存隔离,可以将1张大显存的物理GPU卡虚拟化成多张小显存的虚拟机GPU卡。并且 保障运行在虚拟GPU上的服务之间相互隔离、互不影响 。
相关产品(必选) GPU云服务器 、 弹性公网IP
节点所在命名空间 节点IP 当前工作负载中GPU节点IP Pod名称 当前工作负载中GPU节点中运行Pod名称 GPU配给卡数 当前工作负载中GPU节点的GPU配给卡数 GPU平均利用率 当前工作负载中GPU节点的GPU平均利用率 显存使用量 当前工作负载中GPU节点的显存使用量 显存平均利用率 当前工作负载中GPU节点的显存平均利用率
开启GPU显存共享 概述 本文介绍如何开启并使用GPU显存共享功能,开启后支持多任务共享同一张卡的显存和算力资源。 前提条件 开启GPU显存共享功能的节点基础环境符合兼容性要求,详情参考 https://cloud.baidu.com/doc/CCE/s/9lrrdyikg 。 如节点基础环境不符合要求,需要从资源池中移出,在BCC控制台进行操作系统重装。
5.填写下列配置信息: 配置项 说明 实例类型 选择要学习的网络实例类型,类型为私有网络VPC、专线通道、边缘网络 地域 选择要学习的网络实例所在地域 网络实例 选择要关联至该CSN路由表的网络实例,使目标CSN路由表学习到该网络实例的路由,已加载至云智能网的实例不可重复添加 描述 编辑学习关系的描述信息,不超过200字符 6.点击“确定”,学习关系创建完成。 相关文档 API: 创建学习关系
前置依赖 您已购买多台弹性高性能计算 GPU 实例(支持 RDMA 网卡的 GPU 实例)。 实例已安装完成驱动和 CUDA 等运行环境。您可在创建或重装时 自动安装驱动 。 实例已安装 Docker 和 NVIDIA Container Toolkit,您可使用 云助手自动安装 docker 公共命令 对批量实例快速安装。
对比传统计算模式,在GPU使用Clara Parabricks进行基因分析能够保证一致性的结果,以及更高效的计算。 需求场景 基因测序。 药物研发。 前提条件 已在百度智能云注册账号并创建好GPU实例,推荐您使用最新的驱动版本以获取更好的效果,具体步骤可参考 创建GPU实例 。 在创建好的GPU实例中已安装好了NGC需要的环境,具体步骤可参考 部署NGC环境 。