2025-01 |
新增工作流功能,支持视频处理工作流模板、数据处理组件,支持使用已有组件编排工作流处理任务(白名单)。开发机完成改版上线,支持开关机持久化数据,内置vscode、jupytertLab等webide,支持开发镜像管理与训练任务联动,支持低利用率关机等一系列服务于开发体验提升、资源利用率提升的重要优化。训练容错支持无条件重试能力,在训练异常时自动重调度任务尝试恢复,避免偶发性异常导致的训练中断问题。 百舸平台权限管理升级,支持资源池、队列资源的细粒度的权限配置,满足多团队使用的资源隔离场景。支持CPU资源创建和纳管,支持创建纯CPU工作负载,用于数据处理、开发等场景。 |
2024-12 |
新增模型管理,支持自定义模型创建,用户可以将自有模型在模型管理中统一管理(12.27)。 创建分布式训练任务,支持用户自定义设置任务的提交时间。 训练任务历史日志,支持关键字检索&上下文查询&日志展示字段可配置。 百度自研高性能通信库BCCL易用性增强,平台支持用户在创建训练任务时,一键注入BCCL通信库。 训练任务资源监控,支持任务维度的PFS并行文件存储的带宽和IOPS指标监控。 训练任务预置启动超时时间,默认1h。启动超过1h的任务,平台会自动将任务直接置为失败,仅支持Pytorchjob。 在线服务部署支持定时、弹性扩缩容实例。 支持调度诊断功能,对于长期排队中的任务(排队超过5min)可执行调度诊断,定位任务排队原因并提供解决方案,提升问题解决效率。 支持物理队列资源转让功能,支持选择节点和目标队列进行资源转让,无需手动从物理队列移出移入节点。 对于新建资源池和新建节点场景,百舸提供可用性检查能力,检查资源池和节点是否异常。 推理加速支持大语言模型、多模态模型等,提供更丰富的模型选择。 |
2024-11 |
自定义服务支持定时自动扩缩容、根据自定义业务指标弹性扩缩容。 新增数据集管理,支持数据集创建、权限管理以及在训练任务中挂载数据集。新增开发机可见范围,支持所有者可见、公开可见。新增开发机、在线服务部署、工具市场支持管理员控制创建时是否可以开启外网。训练容错,支持快速识别和感知训练NCCL/CUDA日志中的典型异常,快速容错,减少故障恢复时间。自定义服务容错,GPU卡级别故障实例能够快速在健康节点重建。基于百度云高性能集合通信库BCCL,新增支持训练hang场景的诊断。轻量服务更名为工具市场,开源工具支持部署到通用资源池,上线模型评测、模型微调、语音合成等工具。添加轻量计算实例无需重装操作系统。 |
2024-10 |
资源调度策略升级,新增Fifo调度策略,实现按照任务创建时间进行严格排队,解决遍历策略下大任务长期无法获得资源的问题。任务消息通知,新增 任务发生容错、任务所在节点异常 的通知事件。训练容错,支持基于日志关键字的容错能力,满足自定义训练异常进行容错的场景。轻量计算实例可添加CPU服务器和边缘GPU云服务器。自定义服务支持挂载本地盘。 |
2024-09 |
模型部署参数增加,提高模型请求补偿项可选性,优化结束符号超时问题支持Multi lora推理服务热更新,保持原有服务稳定。开发机支持自定义镜像。工具市场支持挂载CFS存储、可部署到边缘BEC云服务器。支持通过百舸控制台创建弹性队列、层级队列。可基于队列不同配额设置实现训推混部、潮汐混部,提升资源利用效率。支持以自定义镜像的方式部署在线服务,提供可配置的健康检查、滚动更新策略,保证服务稳定性、细粒度的流量控制及版本管理。训练任务消息通知,新增短信、电话、企业微信/钉钉、自定义webhook通知方式。训练任务实时日志支持关键字检索。提供CLI命令行,支持资源池/节点/训练任务的管理。创建中、排队中的任务支持停止操作,新增记录停止人的功能。训练任务使用PFS,支持指定PFS子目录挂载。 |
2024-08 |
新增开发机模块,为开发者提供的在线编译、调试代码和模型开发环境。新增工具市场功能,集成主流AI开源项目和百舸自研产品镜像模版,可面向中小企业提供一键快速部署AI场景所需工具和工具托管能力,以快速搭建开发调试环境。 |
2024-07 |
百舸控制台支持创建NPU资源池,支持NPU、英伟达同一资源池混合部署,统一管理。 创建资源池时,网络模式支持选择VPC-ENI,提供更灵活的容器网络配置能力。 |
2024-06 |
发布百舸OpenAPI,支持资源池、队列、训练任务的管理。百舸资源视图新增空闲资源统计功能,支持查看集群实时空闲资源分布情况及历史趋势。训练任务性能监控,新增 lm loss指标。训练任务集合通信带宽监控大盘,支持按照通信类型进行带宽汇聚分析、新增 RankId 信息。llama、qwen系列的模型部署推理服务时支持Multi lora,可以将多个lora模型和base模型合并部署,提升资源利用率。 支持通过实例和服务维度查看推理服务业务监控。推理服务新增支持Qwen2系列模型。 |
2024-05 |
新增AI加速套件,整合AIAK训练、推理加速镜像及训推加速过程中所需的一系列工具,轻松一键获取。推理服务支持实例反亲和部署,避免单节点故障导致服务不可用。推理服务实例弹性伸缩,在业务负载出现波峰或波谷时,可以根据业务流量自动调整实例数量,实现动态管理线上服务的计算资源,从而保障业务平稳运行并提高资源利用率。推理服务支持设置防抢占策略,开启后实例不会被训练任务抢占。发布队列维度可观测大盘,支持监控队列维度GPU利用率、分配率、超发率等关键指标。训练任务支持用户自定义配置CPU、内存以及共享内存资源配额,用户可根据业务需求按需配置。 |
2024-04 |
训练加速模型支持新增 Qwen1.5 和 Mixtral 系列模型。推理加速模型支持Qwen 1.5系列,InternLM2-20B以及Mixtral-7Bx8等模型。训练任务性能监控,训练吞吐指标兼容动态seq-length场景。 |
2024-03 |
支持训练任务Timeline,便于用户快速查询任务运行的重要时间节点。基于百度云集合通信库BCCL,提供训练任务集合通信带宽可观测能力,为故障诊断排除、训练性能调优等提供数据支撑。基于AIAK-Training 训练加速工具包,提供训练任务吞吐、训练分阶段耗时等性能监控指标,便于用户实时掌握训练的性能。支持RDMA Tor拓扑感知功能,减少训练过程中跨TOR通信的频率,提升训练效率。 |
2024-02 |
训练任务集成Tensorboard能力,支持通过Tensorboard查看训练结果分析报告。任务资源监控新增GPU NVLink带宽、RDMA网络收发包等指标;节点维度监控新增磁盘/CPU/内存等资源统计,便于用户直观监控任务所在节点的运行情况。百舸平台全面支持昇腾芯片,允许用户基于昇腾芯片快速搭建资源池,并支持节点健康状态的实时监测功能。同时支持部署和管理基于昇腾芯片的训练任务,提供训练可观测和自动容错等基础功能,满足用户在百舸上使用昇腾芯片进行业务部署的场景。 |
2024-01 |
提供训练任务资源监控大盘,支持快速查看任务/实例/GPU/节点维度的资源使用情况。提供训练任务事件列表,支持查询任务以及关联资源在启动、运行阶段的变更情况,有助于日常观察任务变更以及定位问题。提供资源池拓扑功能,支持查看资源池节点和任务的可视化拓扑。 |
2023-12 |
提供资源视图大盘和组件稳定性大盘,支持快速查看资源使用情况和组件关键指标。支持设置/修改任务优先级,按优先级高低进行任务调度。支持资源池事件中心,统一记录资源池所有事件,并持久化保存,方便问题排查和追溯。 |
2023-11 |
提供CheckPoint加速能力,降低保存Checkpoint的时间开销。训练任务支持一键重跑,提高任务提交效率。训练任务日志一键导出,快速下载任务日志,提高问题排查效率。 |
2023-10 |
推理服务新增Llama2、ChatGLM2、Baichuan1&2模型。提供资源视图列表,支持集群/节点/GPU卡资源分配和空闲状态查看&分析。 |
2023-09 |
支持资源池节点故障感知&隔离,自动感知故障并封锁故障节点。支持RDMA Test,表单化执行benchmark测试,以评估集群网络性能。 |
2023-08 |
提供开源数据集加速下载、开源模型权重加速下载以及数据转储。支持大模型推理部署服务,提供主流开源大模型快速部署和加速。 |
2023-07 |
支持任务自动容错,主动感知硬件故障,自动重启任务。支持MPI类型任务,可基于MPI框架直接运行任务。支持本地盘存储方案,支持本地盘或文件系统以HostPath方式挂载到资源池并使用。 |
2023-06 |
提供NCCL检测功能,表单化执行benchmark测试,无需手动创建nccl test任务。提供训练任务模板,支持主流开源大模型一键训练加速。支持训练任务状态感知、训练效果LOSS异常感知,通过短信、邮件等方式向告警接收人发送任务信息。 |
2023-05 |
百舸异构计算平台AIHC正式发布,支持资源池创建和管理,Pytorch任务创建和管理。 |