核心概念
更新时间:2023-06-14
本文为您介绍与百度百舸异构计算平台相关的核心概念。
资源池
资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群,一个PFS实例和一个CPROM实例。在资源池中,用户可以创建多个队列,从而在不同的队列中处理不同业务的工作任务。通常情况下,企业内部一个独立的团队或者项目建议创建一个独立的资源池,实现团队间或项目间的资源隔离。
节点
节点(Node)是提供计算能力的单元,属于资源池,为任务运行提供计算资源。作为集群的组成部分,节点负责执行实际的计算任务。通过使用节点,可以有效地管理和扩展应用程序的部署,并提供高度可靠的服务。
PFS文件系统
并行文件存储服务PFS (Parallel Filesystem Service),是百度智能云提供的完全托管、简单可扩展的并行文件存储系统,针对高性能计算场景提供亚毫秒级的访问能力和高IOPS的数据读写请求能力。同时,百度智能云PFS提供简单、易操作的接口,免去部署、维护费用的同时,最大化提升您的业务效率。
CPROM监控
百度智能云Prometheus监控服务(Cloud Managed Service for Prometheus,简称CProm)是完全对接开源Prometheus监控系统,针对云原生场景提供的全托管、高可用、可扩展的Prometheus监控服务。
队列
队列是一个资源池中部分资源的集合,用于工作负载(训练任务、在线服务)的运行,一个资源池中可创建多个队列。用户购买资源池后可将资源池划分成若干个队列,并使用队列中的资源处理不同业务的工作负载。资源池创建成功后会默认生成default队列,可使用当前资源池的所有计算资源。
任务
任务是百舸异构计算平台中最基本的执行单元,一个任务通常指一个AI模型的训练作业。