为了保障大规模分布式训练任务稳定运行,百舸异构计算平台提供了任务自动容错的能力,支持对训练任务进行异常感知、容错判断以及自动恢复。 功能说明 百舸训练容错提供以下几方面能力: 训练异常感知:提供训练进程异常的感知能力,特别是针对于难以识别的任务hang场景。 容错判断:基于百舸资源池 自动故障隔离能力 ,检测任务所在节点是否发生故障,如发生故障会自动隔离节点,触发任务容错流程。
操作记录 功能说明 操作记录功能支持用户在BEC控制台查询账号近期的主要变动,并且支持查询 新增 、 删除 和 修改 等相关操作的详细信息,信息包括 用户名 、 事件名称 、 资源类型 和 资源名称 等,该功能覆盖BEC控制台所有资源层级。 使用说明 进入路径: 第一步:在控制台右上角点击头像右边的下拉按钮。 第二步:点击 多用户访问控制 。 第三步:点击页面左侧导航栏 操作记录 。 第四步:页面
计费类 BEC计费项有哪些? BEC包括算力费用(CPU、内存、存储、IP费用、BOS、CDS、,负载均衡),带宽费用。 BEC带宽有哪些计费方式? 日峰值带宽计费,月95峰值带宽计费,月第四峰值带宽计费,按流量带宽计费。 BEC支持预付费吗? 目前BEC暂不支持预付费,只支持后付费模式 服务停止后是否停止计费? BEC在服务停止后,会持续计费,在您删除资源后才会停止计费。 资源因为欠费被暂停使用
欠费处理 欠费处理: 北京时间整点检查您的账户余额是否足以支付本次BEC账单的费用(如北京时间11点整检查账户余额是否足以支付10点至11点的账单费用),若不足以支付,即为欠费,欠费时系统会发送欠费通知。 欠费后立即停服资源,系统会发送欠费停服通知,数据为您保留7天,期间不收取费用,7天内未充值则释放资源。
监控展示 目前基于node-exporter、kube-state-metrics、dcgm-exporter、nvidia-exporter等基本采集agent,我们提供一系列基本的dashborad展示模板,用户可根据实际情况自行导入、使用和修改,若是客户自己agent采集的指标,需独自配置dashborad。 百舸相关dashboards已包含显卡监控,不需要导入gpu-dashboards
服务域名 BEC API的服务域名为: 区域 服务端点Endpoint 协议 全局 bec.baidubce.com HTTP and HTTPS 说明:BEC API支持HTTP和HTTPS两种调用方式。为了提升数据的安全性,建议通过HTTPS调用。
虚机服务 创建BEC虚机服务 如下代码可以新建一个BEC虚机服务: dataVolumeList = new ArrayList (); // 数据盘信息 VolumeConfig volumeConfig = new VolumeConfig(); // 数据盘类型 volumeConfig.setName("SATA"); // 数据盘大小 volumeConfig.set
删除Object 接口描述 本接口用来删除指定Object。 请求结构 DELETE /v1/bos/bucket/{bucketId}/object?objectKey={objectKey} Host: bec.baidubce.com Authorization: authorization string 请求头域 除公共头域外,无其它特殊头域。 请求参数 参数名称 类型 是否必选 参数位置
重启实例 用户可以将运行中和异常的实例重启。BEC支持两种方式进行重启实例。 操作步骤 1.登录 百度智能云BEC控制台 。 2.从以下路径进入到实例列表页面:边缘云服务器=>实例管理。 方式一:实例列表页批量重启实例 用户在实例列表页,可以重启一个或重启多个实例。 方式二:实例详情页重启实例 用户在实例列表页,点击 实例名称 或 查看 进入到实例详情页,用户可以重启当前实例。 方式三:实例列表页
配额管理 针对企业对自身财务和资源的自定义控制场景,BEC提供Bucket级别配额管理功能。该功能支持对单个Bucket的容量上限进行配置,实现对存储服务弹性能力的自定义控制。 操作步骤 1.登录 百度智能云BEC控制台 。 2.从以下路径进入到生命周期配置页面:边缘存储=>边缘对象存储。 方式一:设置Bucket配额。点击页面的“新建Bucket”即可在新建Bucket阶段配置配额。 方式二:修