边缘计算节点 BEC 边缘计算节点 BEC 只包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下: 实例监控(Instance) 指标英文名称(metric name) 指标中文名称 单位 维度 备注 vCPUUsagePercent CPU使用率 % InstanceId CpuIdlePercent CPU空闲率 % InstanceId DiskCUsedBytes
通用说明 API调用遵循HTTP协议,各Region采用不同的域名,具体域名为cfc.{region}.baidubce.com。 数据交换格式为JSON,所有request/response body内容均采用UTF-8编码。 实名认证 使用CFC API的用户需要实名认证,没有通过实名认证的可以前往 百度开放云官网控制台 中的安全认证下的实名认证中进行认证。 没有通过实名认证的用户请求将会得到
快速入门 创建工作流 本示例演示从头创建工作流,有关工作流的概念请参考 工作流基本概念 1.在工作流管理页面,点击“创建工作流”,完成填写新建工作流的信息和创建。 工作流名称 :您可以指定自己的工作流,只能由数字、字母、-或_组成,必须以字母或_开头,长度小于64个字符。 描述 :您可以填写对创建工作流的详细描述。 工作流定义 :参考 流程定义语言 来定义您的工作流,右边是您定义的工作流的流水线。
配置多机环境 使用以下命令在一台机器上的多个gpu上进行训练,可能需要配置多个节点的RANK以及MASTER的ip地址和端口。 $NPROC_PER_NODE: 这个值应该设置为每个节点上可用于训练的GPU数量。例如,如果你的每台服务器有4个GPU,那么这个值应该是4。 $NNODES: 设置为总的节点数量。如果你有两台服务器参与训练,此值应为2。 $RANK: 每个节点需要一个唯一的序号。
后端使用函数计算 介绍 函数计算CFC (Cloud Function Compute)提供基于事件触发、全托管的云端计算能力。由于其“无服务器”特性,您仅需要开发业务代码并上传,无需关注和配置服务器资源。 使用API网关,您可直接将函数计算作为您的后端,在无需关注后端服务资源的同时,使用API网关的流控、认证、访问控制等API管理能力。
添加轻量计算实例无需重装操作系统。 2024-10 资源调度策略升级,新增Fifo调度策略,实现按照任务创建时间进行严格排队,解决遍历策略下大任务长期无法获得资源的问题。 任务消息通知,新增 任务发生容错、任务所在节点异常 的通知事件。 训练容错,支持基于日志关键字的容错能力,满足自定义训练异常进行容错的场景。 轻量计算实例可添加CPU服务器和边缘GPU云服务器。 自定义服务支持挂载本地盘。
当选择了某一种快速表计算之后,度量右键菜单中会多出一个表计算设置的选项,可以对当前选定的快速表计算方式进行进一步的配置。此外,还支持表计算的计算依据设定,表计算都是在当前分区内计算的,可以通过设置计算依据来改变分区。默认情况下,计算依据是表横穿,计算依据会在后续章节中详细阐述。 接下来详细介绍各种快速表计算方式。 累计和 默认配置下,累计和会按照表横穿的方向,对设置了累计和的度量进行累加。
您可以查看计算资源集群、存储资源、监控实例信息。 计算资源集群(CCE):名称、节点数量、可用空闲卡数/总卡数、CCE集群状态。 存储资源(PFS):名称、总存储容量、存储利用率、PFS状态。 监控实例:名称、CPROM状态。 您可以点击“计算资源集群(CCE)”、“关联存储资源(PFS)”、“关联监控实例(CPROM)”跳转到对应界面查看具体信息。
尽量均衡 DP 间的采样样本长度; Packing 模式下,支持数据集按 packing 后的样本总计算量排序,尽量均衡 DP 间的计算量(在长序列场景下,由于样本长度差异较大,该问题可能更严重); 升级 Megatron 显存优化机制,在长序列等对显存要求极高的场景下,可用于精细的调整显存占用,包括: 支持流水线并行按 PP Stage 动态设置不同的 PP Layer 数目; 支持重计算功能按
可以点击上下箭头修改顺序 确定层之后,点击保存,保存层配置。