核心概念
本文为您介绍与百度百舸异构计算平台相关的核心概念。
通用资源池
通用资源池是百舸为您提供的稳定、高性能的大规模分布式训练、在线服务部署环境。在通用资源池中,您可创建多个资源池,一个资源池对应一个CCE集群,可以关联一个PFS实例和一个CPROM实例。在资源池中,用户可以创建多个队列,从而在不同的队列中处理不同业务的工作任务。通常情况下,企业内部一个独立的团队或者项目建议创建一个独立的资源池,实现团队间或项目间的资源隔离。
使用引导:创建通用资源池
托管资源池
托管资源池是百舸提供的免运维AI计算资源池。在托管资源池下,用户无需关注资源池和算力资源的运维管理,由百舸平台保障运维稳定性,为用户提供稳定、可靠、易用的算力管理服务。
使用引导:创建托管资源池
轻量资源
轻量资源实例是百舸提供的灵活、易用、高性能的AI开发、模型部署环境。轻量服务主要面向中小企业和开发者,无需运维和管理集群,开箱即用。您可将已购买的百度云云服务器添加到轻量资源中用于部署轻量服务,助力您使用更便携更高效的在云端开发测试环境。
使用引导:轻量计算实例
队列
队列是资源池中部分资源的集合,用于工作负载(训练任务、在线服务)的运行。一个资源池中可创建多个队列。用户购买资源池后可将资源池划分成若干个队列,并使用队列中的资源处理不同业务的工作负载。
通用资源池创建成功后会默认生成default队列,可使用当前资源池的所有计算资源,使用方式可参考通用资源池队列管理。
托管资源池资源队列是算力资源分配调度的单元,所有使用托管资源池算力的工作负载都需要提交到对应的资源队列中才能获得算力分配,使用方式可参考创建和管理资源池队列。
节点
在百度百舸平台中,节点(Node)可以看作是计算、存储和容器等服务的一个集合,用户可以根据实际需求选择合适的节点来执行AI任务。通过使用节点,可以有效地管理和扩展应用程序的部署,并提供高度可靠的服务。
实例
实例可以理解为一台虚拟的服务器,包含CPU、内存等最基础的计算组件,是云服务器呈献给您的实际操作实体。百舸中轻量计算的实例一般指的是BCC云服务器或BEC边缘云服务器实例,详情可查看BCC实例、BEC边缘云服务器。
PFS文件系统
并行文件存储服务PFS(Parallel Filesystem Service),是百度智能云提供的完全托管、简单可扩展的并行文件存储系统,针对高性能计算场景提供亚毫秒级的访问能力和高IOPS的数据读写请求能力。同时,百度智能云PFS提供简单、易操作的接口,免去部署、维护费用的同时,最大化提升您的业务效率。
CPROM监控
百度智能云Prometheus监控服务(Cloud Managed Service for Prometheus,简称CProm)是完全对接开源Prometheus监控系统,针对云原生场景提供的全托管、高可用、可扩展的Prometheus监控服务。
开发机
开发机是百舸平台为开发者提供的在线编译、调试代码和模型开发的模块。开发机支持使用 WebIDE 在线开发,或通过 SSH 连接开发机远程开发,也提供了持久化的共享文件系统用于存储开发中的数据。开发机在关机后,平台会释放开发机的算力,通过备份开发机可以保存之前的操作、下载的数据和配置环境等。
分布式训练
分布式训练是百舸提供的灵活、稳定、高性能的机器学习训练环境。支持多种算法框架,能够处理大规模的分布式深度学习任务,同时也支持自定义算法框架。
任务
任务是百舸异构计算平台中最基本的执行单元,一个任务通常指一个AI模型的分布式训练作业。
部署服务
百舸平台提供更灵活的部署方式,您可以将通过Docker构建的镜像使用此功能部署为推理服务,将模型文件或代码挂载到服务实例中。使用方式可参考自定义部署服务。