为了保障大规模分布式训练任务稳定运行,百舸异构计算平台提供了任务自动容错的能力,支持对训练任务进行异常感知、容错判断以及自动恢复。 功能说明 百舸训练容错提供以下几方面能力: 训练异常感知:提供训练进程异常的感知能力,特别是针对于难以识别的任务hang场景。 容错判断:基于百舸资源池 自动故障隔离能力 ,检测任务所在节点是否发生故障,如发生故障会自动隔离节点,触发任务容错流程。
使用流程 您可以通过下面的说明大概了解下单并完成LCC的部署的系列流程。 提交LCC订单。 在LCC控制台页面,用户会选择一个百度智能云提供的区域,并在此提供部署位置信息、需要的LCR/LCN配置(配置可以参考 LCC配置定价 ),百度智能云经过工勘后会将其作为一个虚拟机房(Location Site),并且用户可以基于此部署位置信息看到由百度智能云生成的订单信息。 处理LCC订单。 用户确认订单
重启实例 用户可以将运行中和异常的实例重启。BEC支持两种方式进行重启实例。 操作步骤 1.登录 百度智能云BEC控制台 。 2.从以下路径进入到实例列表页面:边缘云服务器=>实例管理。 方式一:实例列表页批量重启实例 用户在实例列表页,可以重启一个或重启多个实例。 方式二:实例详情页重启实例 用户在实例列表页,点击 实例名称 或 查看 进入到实例详情页,用户可以重启当前实例。 方式三:实例列表页
配额管理 针对企业对自身财务和资源的自定义控制场景,BEC提供Bucket级别配额管理功能。该功能支持对单个Bucket的容量上限进行配置,实现对存储服务弹性能力的自定义控制。 操作步骤 1.登录 百度智能云BEC控制台 。 2.从以下路径进入到生命周期配置页面:边缘存储=>边缘对象存储。 方式一:设置Bucket配额。点击页面的“新建Bucket”即可在新建Bucket阶段配置配额。 方式二:修
重启POD 接口描述 本接口用于重启用户指定POD。 请求结构 PUT /v2/pod/{podId}/restart?clientToken={clientToken} HTTP/1.1 Host: bec.baidubce.com Authorization: authorization string 请求头域 除公共头域外,无其它特殊头域。 请求参数 参数名称 参数说明 请求类型 是否必须
查询Secret 接口描述 查询Secret详细信息。 | 请求结构 GET /api/v1/{namespace}/secrets/{name} HTTP/1.1 Host: bec.bdcloudapi.com Content-Type: application/json; charset=utf-8 Authorization: authorization string 请求头域 除公共头域
监控展示 目前基于node-exporter、kube-state-metrics、dcgm-exporter、nvidia-exporter等基本采集agent,我们提供一系列基本的dashborad展示模板,用户可根据实际情况自行导入、使用和修改,若是客户自己agent采集的指标,需独自配置dashborad。 百舸相关dashboards已包含显卡监控,不需要导入gpu-dashboards
卸载云磁盘 table td { white-space:nowrap; } 接口描述 本接口用于卸载云磁盘。 请求结构 PUT /v 2 /volume/ { volumeId } ?detach HTTP/ 1.1 Host : bec.baidubce.com Authorization : authorization string { instanceId : } 请求头域 除公
虚机服务 创建BEC虚机服务 如下代码可以新建一个BEC虚机服务: dataVolumeList = new ArrayList (); // 数据盘信息 VolumeConfig volumeConfig = new VolumeConfig(); // 数据盘类型 volumeConfig.setName("SATA"); // 数据盘大小 volumeConfig.set
服务域名 BEC API的服务域名为: 区域 服务端点Endpoint 协议 全局 bec.baidubce.com HTTP and HTTPS 说明:BEC API支持HTTP和HTTPS两种调用方式。为了提升数据的安全性,建议通过HTTPS调用。