region Region 负载均衡所在区域信息 serviceProvider ServiceProvider 负载均衡所属运营商信息 city String 负载均衡所在城市信息 replicas Integer 副本数(最小为1) Region 枚举名称 描述 CENTRAL_CHINA 华中 EAST_CHINA 华东 NORTH_CHINA 华北 SOUTH_CHINA 华南 NORTH_EAST
查询所有event 接口描述 查询Namespace下所有Event的详细信息。
集群待调度Pod/任务趋势图 详细的集群中待调度Pod/任务趋势,展示了待调度Pod数、待调度任务数、排队任务数、总任务数等数据的排队任务率。 卡分配率 详细的集群中GPU卡分配率。 任务重试调度次数 调度器持续调度任务的次数,还包含任务类型、任务名称、命名空间、排队状态。
否 string volumeMounts 容器数据卷信息 否 array mountPath 容器数据卷挂载路径 是 string name 容器数据卷名称。 是 string readOnly 容器数据卷是否只读,默认否 否 boolean workingDir 容器工作目录 否 string deployInstances 部署地域信息。
处于数据安全和多备份考虑,企业希望将数据从 A 账号定期同步到 B 账号,以实现数据的跨账号复制和共享。 跨区域数据复用 :由于业务原因例如跨 Region 搭建的计算集群需要使用同一组数据等场景,可以使用 BOS 数据同步功能复制数据副本。
更新函数配置UpdateFunctionConfiguration 接口描述 本接口用于修改函数配置。 请求结构 PUT /v1/functions/{FunctionName}/configuration HTTP/1.1 Host: cfc.bj.baidubce.com Authorization: authorization string { "Description"
获取执行历史GetExecutionHistory 接口描述 本接口用于查询用户工作流执行历史。 请求结构 GET /v1/execution/history HTTP/1.1 Host: xflow.bj.baidubce.com Authorization: authorization string 请求头域 除公共头域外,无其它特殊头域。 请求参数 参数名称 类型 是否必须 参数位置 描述
当虚机的网络类型为vpc时有效 networkConfig NetworkConfig 虚机网络名和IP地址列表 deploysetList List< DeploySetVo > 部署集信息列表 userData String 用户注入数据的base64编码. base64(user_injected_data: base64(原文)) tags List< TagModel
FlashCkpt:大模型训练高性能ckpt保存 FlashCkpt 是百舸异构计算平台为PyTorch大模型训练场景而开发的高性能Checkpoint框架,实现接近0开销的模型状态保存。本文将介绍如何使用百舸 FlashCkpt 的能力,提升Checkpoint保存的性能。 背景信息 大模型训练随着参数量和数据规模的增长,受限于单机GPU内存容量限制,通常会使用分布式训练框架进行训练。
访问和文件系统等配置信息 开机、删除 创建失败 资源不足时,会创建失败,可以尝试手动开机或更换一个较小规格的实例。