弹性高性能计算集群 弹性高性能计算集群 弹性高性能计算集群EHC是基于高性能RDMA网络,将多个裸金属服务器进行互联,每个裸金属服务器配置单独的RDMA网卡,可提供高带宽、低时延的通信能力,极大提升计算任务的加速比的计算集群,适用于超大模型训练、科学计算等大规模计算场景。百度智能云可提供业界主流RDMA技术路线,满足多场景计算需求。
加速卡概览(实时) 总卡数 资源池/队列内所有节点上加速卡(如GPU)的物理总数。 分配量 当前已被任务占用的加速卡数量(包含部分分配的情况),直接反映资源的实际使用压力。 不可用卡数 因节点故障或硬件异常导致无法被使用的加速卡数量。 资源利用率(平均值) 加速卡利用率 加速卡计算核心的平均使用率,是衡量算力负载水平的关键指标。
边缘云服务器 BEC创建和删除实例模板 介绍在BEC里如何创建和删除实例模板。 BEC创建和删除边缘云服务器 介绍在BEC里如何创建和删除边缘云服务器。 BEC变更边缘云服务器配置 介绍在BEC里如何变更和批量变更边缘云服务器配置。 BEC实例组扩容 介绍在BEC里如何完成实例组扩容。 BEC重置密码和创建密钥对 介绍BEC实例密码的重置和密钥对的创建、查看、删除功能。。
性能下降 加速芯片固件、驱动版本检查 检查多机间加速芯片固件版本是否一致 加速芯片预期数量检查 检查 节点中感知的加速芯片数量,并与预期数量进行比较确保设备正常工作 加速芯片初始化状态检查 检查 是否存在未正确初始化或存在问题的加速芯片节点。
获取BEC虚机实例列表 table td { white-space:nowrap; } 接口描述 本接口用于获取BEC虚机实例列表。 请求结构 Plain Text 复制 1 GET /v2/vm/instance?
AIAK-Inference-LLM简介 AIAK-Inference-LLM是百度智能云基于百舸AI计算平台,面向大模型推理场景提供的最佳实践解决方案配套 AI 加速工具,帮助模型开发者高效完成大模型推理部署,提升推理效率,相比开源vLLM性能可大幅提升。
自定义沙箱 快速入门 概览 本文将介绍如何使用sdk在沙箱服务创建自定义模版,以支持用户扩展沙箱功能。 说明:在构建自定义模版时沙箱服务会为用户的模版注入命令执行、文件操作的功能,用户无需在自己的模版内构建相关程序。
AIAK推理加速组件 概览 AIAK是面向人工智能任务提供的加速引擎,用于优化基于AI主流计算框架搭建的模型,能显著提升AI任务开发、部署的运行效率。 其中,AIAK推理加速套件是通过优化主流的AI框架,例如:Tensorflow、PyTorch产出的模型,降低在线推理延迟、提升服务吞吐,大幅增加异构资源使用效率的推理优化引擎,结合百度智能云的IaaS资源,可进一步提升用户AI场景下的计算效率。
性能强劲 百度百舸·AI计算平台提供经过百度内部验证的AIAK加速能力,帮助您在AI计算场景下实现更快的性能,训练性能提升30%,推理性能提升60%,您可基于百度AI加速能力构建符合自身业务需求的训练任务,提升训练效率和效果。 稳定可靠 百舸平台内置集群容错能力,在长时间运行训练任务场景下,通过容错能力进行自动重启和重新调度,有效解决掉卡和任务hang问题,提升训练稳定性,保障训练任务不中断。
操作步骤 登录 百舸AI计算平台AIHC控制台 。 在左侧菜单栏选择 资源池 ,找到您想要查看的资源池名称,单击ID。 单击节点 管理页面 ,查看节点具体状态。 查看节点详情 操作步骤 登录 百舸AI计算平台AIHC控制台 。 在左侧菜单栏选择 资源池 。 单击 节点管理 页面。 找到您想要查看的节点名称,单击ID,进入节点详情页面。 查看基本信息。