核心概念 集群 集群是CHPC管理的核心单元,包含节点、HPC调度器、域账号系统、应用软件、共享存储、弹性公网IP等资源,可提供强大的计算能力。 节点 每个节点是一台云服务器实例,是执行计算任务的基本单元。节点可按照使用用途细分为登录节点、管控节点和计算节点。 队列 队列是计算节点的组织单元,通常一个队列会配置相同的计算节点规格来处理同一种计算作业。
用户的函数运行环境中的隔离保护和百度云BCC是同一级别的,函数计算是在虚拟机级别隔离运行。 CFC还在网络、数据、代码、防DDos攻击等方面做了完备的保护,确保用户的信息安全。 函数代码安全 函数计算对代码进行校验并将其存储在CFC私有BOS仓库中。使用代码时,函数计算都执行完整性检查。代码执行与它自己的文件系统和网络命名空间相隔离。
相关概念 边缘计算节点 边缘计算节点基于CDN边缘节点构建,覆盖全国大部分地区,三大运营商全覆盖。将算力下沉到各城市级节点,提供离用户更近的算力资源。 中心云 基于中心Region提供的云服务,即通常所说的公有云。 边缘云 基于边缘计算节点提供的云服务。节点覆盖全国的小资源池,部署灵活,对环境依赖更小。
弹性高性能计算集群 弹性高性能计算集群 弹性高性能计算集群EHC是基于高性能RDMA网络,将多个裸金属服务器进行互联,每个裸金属服务器配置单独的RDMA网卡,可提供高带宽、低时延的通信能力,极大提升计算任务的加速比的计算集群,适用于超大模型训练、科学计算等大规模计算场景。百度智能云可提供业界主流RDMA技术路线,满足多场景计算需求。
包含AI计算、AI存储、AI加速、AI容器四大核心套件,能为AI场景提供软硬一体解决方案 了解详情
函数计算 CFC 函数计算 CFC 只包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下: 实例监控(Instance) 指标英文名称(metric name) 指标中文名称 单位 维度 备注 ConcurrencyLimit 并发超限次数 次/分 FunctionBrn FunctionErrors 调用错误次数 次/分 FunctionBrn InvocationCount
定时任务计划表达式 计划表达式 用户可以使用 cron 或 rate 表达式在函数计算中创建按计划自行触发的规则。所有表达式都使用 UTC 时区 ,计划的最小精度为 1 分钟 。 CFC提供支持 cron 表达式和 rate 表达式。cron 表达式支持的具体的执行您可以定义具体的那一天的那一分钟。 而Rate 表达式更容易定义,它以一定的间隔触发规则,例如每小时一次或每天一次。
登录 注册 专题议程 联系我们 返回大会首页 本次论坛直播已经结束,欢迎观看精彩回顾! 专题议程 AGENDA 13:30 - 13:50 构建适合企业的AI中台 施恩 百度智能云 高级经理 13:50 - 14:10 知识中台在设备领域的应用实践 王莉 百度智能云AI应用产品部资深产品经理 14:10 - 14:25 设备管理智能化加快能源企业生产经营智能化转型 包晓明 国能(绥中)发电有限责
快速入门 本文为您简要的介绍使用百度百舸·AI异构计算平台的准备工作和创建流程。在首次使用百度百舸·AI异构计算平台的情况下,帮助用户快速上手,在平台上完成创建资源池及队列、通过模版创建典型大模型训练任务、查看监控等关键流程。
尽量均衡 DP 间的采样样本长度; Packing 模式下,支持数据集按 packing 后的样本总计算量排序,尽量均衡 DP 间的计算量(在长序列场景下,由于样本长度差异较大,该问题可能更严重); 升级 Megatron 显存优化机制,在长序列等对显存要求极高的场景下,可用于精细的调整显存占用,包括: 支持流水线并行按 PP Stage 动态设置不同的 PP Layer 数目; 支持重计算功能按