GPU卡详情 GPU服务器使用的NVIDIA GPU卡基本参数信息如下表所示: GPU卡型号 CUDA Cores Tensor Cores 显存容量 FP64浮点性能 FP32浮点性能 FP16浮点性能 INT8性能 NVIDIA Tesla H800 16896 528 80GB -- 60 Tflops 989 Tflops 1978 Tops NVIDIA Tesla A800 6912 432
查看GPU云服务器监控 对比BCC云服务器,GPU云服务器中包含额外的硬件,例如GPU卡以及RDMA网卡。GPU云服务器支持对这些硬件资源进行监控,相关的监控指标项可在 云产品指标列表 中查询。以下为如何查看GPU实例的监控数据。 GPU监控和GPU扩展监控依赖实例已安装了GPU驱动,如何安装GPU驱动可参考 GPU创建 。
GPU实例命名规则 GPU云服务器在实例命名上可以直观看到硬件配置差异情况,让用户能够精准定位产品的属性,便于与应用选型、配置推荐对应。 GPU云服务实例命名由4部分组成,其格式为: 产品代号+实例规格族+基本规格信息+扩展规格信息。 产品代号:如bcc,代表该实例规格所属产品系列。 实例规格族:如gn5,代表该实例规格包含的资源类型。
基于GPU云服务器部署NIM 概览 NVIDIA NIM 是NVIDIA AI Enterprise的一部分,为用户提供了基于GPU加速的推理微服务容器。容器中含有预训练过的、定制化的AI模型,通过简单的命令即可完成云服务器部署。NIM 微服务对外开放了工业级标准的API,可与AI应用、开发框架和一些工作流程进行集成。
GPU计算型 GPU计算型面向复杂的高密度计算类业务场景,例如人工智能计算,高性能计算等。 GPU计算型按照GPU虚拟化形态分为两种: 透传GPU实例:将整张GPU卡透传给实例使用,性能等同于物理GPU的性能。例如计算型GN5、GN3等都属于透传GPU实例。 vGPU实例:将分片后的GPU卡分配给实例使用,具有更好的性价比,例如vGN3-C属于vGPU类实例。
GPU渲染型 渲染型vGN3-Q 该规格族目前以白名单形式开放,如有需要可以提交 工单 搭配NVIDIA主流数据中心GPU T4以及license vDWS授权,支持3D内容创作应用例如OpenGL图形显示、DirectX等图形功能,方便用户使用GPU的全部功能 适用场景: 图形图像处理,例如3D渲染,光线追踪,云游戏,图形数据库,视频编解码等场景。
管理GPU实例 您可以对当前账户中的GPU执行登录、查看、启动、停止、重启、释放、配置变更、续费、计费变更、重置密码、名称修改等操作,具体可参考BCC。 登录实例 查看实例 启动实例 停止实例 重启实例 释放实例 实例配置变更 实例续费 计费变更 重置密码 实例名称修改
如何检测GPU常见故障 在GPU云服务器使用过程中可能会出现GPU硬件故障或者亚健康状态,如果您发现应用程序出现报错或者GPU硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例或者重置GPU卡等方式修复,如果问题持续发生,请您提交工单。 掉卡故障检测 您可依次通过以下几种检测方法,判断当前实例是否存在GPU掉卡故障。 方法一:检测GPU掉卡数量 检测步骤 登录实例。
检查服务器GPU识别情况 安装GPU驱动之前需要在操作系统下查看GPU卡是否能够完全识别,如不能识别需要进行重新插拔、对调测试等步骤进行硬件排查。
该方式需要自建License服务器,您可以购买BCC实例并参考NVIDIA官网教程自行搭建。 临时测试授权仅供评估用途,不能用于生产任务。 提交 工单 ,获取兼容的GPU GRID驱动。 操作步骤 远程连接BCC实例。 打开GRID驱动安装包,按提示完成安装。