灵活弹性:采用云原生分布式架构,支持水平扩展和垂直扩展集群,一键扩展,满足业务需求高峰低谷变动,保证业务不受损、服务可持续。 开源兼容:支持Elasticsearch原生API,ES原生用户可平滑切换和使用,降低用户改造成本,助力业务上云。 增强特性:自研基于BOS的冷热分离功能,帮助用户大幅度降低成本。自研向量检索能力,支持并优化多种索引算法和相似度距离计算,实现卓越向量检索性能。
弹性高性能计算集群规格:资源独占,支持高性能网络,优化分布式计算任务。 详情可参考 GPU云服务器实例规格 。 GPU云服务器相关组件 除了基础的计算资源,百度智能云也提供以下组件,结合业务场景,可有效提升GPU的计算效率,提升资源利用率。 AIAK加速组件:AIAK是面向人工智能任务提供的加速引擎,用于优化基于AI主流计算框架搭建的模型,能显著提升AI任务开发、部署的运行效率。
站点监控 通过从遍布全国的探测点,发送模拟真实用户访问的探测请求,记录网络终端用户到用户服务站点的访问情况,对用户的网站或服务器实现分布式监控。 应用监控 通过监控应用内各个实例所在进程的运行状态,实时的监控CPU、内存、磁盘等资源使用情况。用户可根据业务情况灵活配置报警策略,以保障应用健康运行。 自定义监控 BCM给用户提供了对自有数据进行监控和报警的功能。
DNS Domain Name System,域名系统,因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。通过主机名得到该主机名对应的IP地址的过程叫做域名解析(或主机名解析)。
云智能网 CSN 云防火墙 CFW 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库
训练方式:指定训练方式为“单机”或“分布式”。 选择角色:训练方式为“单机”时,只能选择“Woker”;训练方式为“分布式”时,可额外选择“PS”、“Chief”、“Evaluator”。 12.完成容器组相关信息配置,可以根据需要同时进行高级设置。 期望Pod数:指定容器组的Pod数目。 重启策略:指定容器组的重启策略,可选择的策略有“失败重启”或“从不重启”。
云智能网 CSN 云防火墙 CFW 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库
云智能网 CSN 云防火墙 CFW 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库
AIAK大模型训推加速套件(后文使用简称 AIAK)是百舸基于百舸平台推出的大模型AI加速能力,用来加速Megatron、Megatron-Core等训练框架的大语言模型,能极大提升大模型分布式训练和推理的性能。下图为AIAK的整体解决方案架构图。
资源类型介绍 通用资源池 通用资源池为您提供稳定、高性能的大规模分布式训练、在线服务部署环境。使用百舸平台进行模型训练推理前,请先创建资源池购买用于AI开发的计算资源,资源池中可添加多种型号的异构资源。 通用资源池可以创建多个资源池,一个资源池对应一个CCE集群,可以关联一个PFS实例和一个CPROM实例。在资源池中,用户可以创建多个队列,从而在不同的队列中处理不同业务的工作任务。