| 2025-9 |
快速开始: - 支持DeepSeek-V3.2-Exp、Kimi-K2-Instruct-0905、Qwen3系列模型在线服务快速部署 - 支持Isaac Lab 2.2.0、Isaac Sim 5.0 开发环境新版本部署支持一键部署Label Studio标注平台开发环境,降低数据管理和数据标注成本资源池: - 支持云盘配额管理 - 全托管资源池:新增队列规格限制策略——队列限制“单芯单可用区” - 全托管与自运维资源池、队列与节点:优化资源视图展示逻辑,综合纳入系统预留、组件占用及故障节点的资源核算,提升资源数据准确性与可观测性分布式训练任务: - 训练模版新增具身模型pi0.5、OpenVLA的训练模版,可一键发起模型训练 - 训练任务存储,支持对接数据湖存储加速工具RapidFS,依靠对象存储BOS作为数据湖存储底座,加速模型的训练 - Pytorch分布式训练框架,新增自动注入NPROC_PER_NODE环境变量,用户可在容器内直接引用 - 日志查询页面,支持单次加载最多1000条日志,提升日志查询体验 - 训练任务名称最多支持255字符在线服务部署: - 支持流量策略功能,多个服务按比例分流,满足灰度发布、异构资源部署等场景需求 - 发布多角色服务功能,支持在多角色服务组中部署PD分离服务 - PD分离部署DeepSeek服务支持根据Kv Cache感知调度 - 实例新增“排队中”状态,服务列表可查看不同状态的实例数信息 - 推理监控支持查看服务Token调用量开发机: - 大盘监控上线磁盘和共享存储监控指标,新增开发机资源相关环境变量,大大提升资源可观测能力,资源用量更清晰 - 全托管资源池开发机上线百舸云盘,服务更稳定,客户对资源的管理更统一 - 网关升级为云原生网关,统一托管,降低客户资源占用的同时,更加稳定、安全、可靠 - 提升BLB IP组配额至50,更多开发机能同时复用一个BLB,降低客户资源成本 - 开发机创建、更新支持设置环境变量和启动脚本,支持更多开发方式的同时,提升开发效率和开发体验 - 镜像管理支持镜像地址和拉取命令一键复制,镜像管理更高效权限管理: - 百舸平台IAM系统策略更新:新增CFS、RapidFS、BLS相关权限策略AI资产管理: - 提供具身智能、LLM等场景30+热门开源数据集快速下载 - 新增BOS类型与PFS L2类型数据集相互转储 - PFS L2类型数据集支持生命周期管理,支持按周期和路径条件自动化管理PFS中文件生命周期,提升PFS存储利用率 |
| 2025-08 |
快速开始: - 新增DeepSeek-V3.1快速部署 - 具身智能场景新增Isaac Lab、Isaac Sim快速开始应用在开发机一键启用资源池: - 全托管资源池新增队列工作负载tab页面(仅支持训练任务)分布式训练任务: - 训练任务列表页面,支持展示任务运行期间GPU利用率指标,快速查看当前任务资源使用情况 - 训练任务名称支持重名 - 提供镜像是否支持RDMA的验证文档,可参考验证镜像是否支持RDMA - 训练任务支持挂载BOS对象存储类型的数据集在线服务部署: - 云原生网关升级,部署服务前需创建网关实例,网关实例支持多个服务复用 - 使用云原生网关部署的服务支持设置IP黑白名单、QPS限流 - 多个服务支持复用四层传输负载均衡BLB实例 - 部署服务支持查看所选队列的总卡数和当前剩余可用卡数开发机: - 支持免CDS方案 - 支持共享CPU/内存 - 预置镜像全面支持RDMA - 支持ccr免密拉取、提前校验密码推送 |
| 2025-07 |
快速开始: - 新增面向具身智能、自动驾驶场景的8个快速开始应用,包括:模型SparseDrive/Uniad、工具Maniskill/LeRobot等 - 新增ERNIE-4.5系列0.3B/0.3B-Base/21B-A3B/21B-A3B-Base模型、ERNIE-4.5-VL系列28B-A3B、28B-A3B-Base模型快速部署 - Qwen2.5 系列大语言模型、 Qwen2.5 vl 模型在昆仑芯资源中快速部署资源池: - 全托管资源池支持队列节点转让 - 自运维资源池队列开启GPU虚拟化后支持创建子队列分布式训练任务: - 训练任务支持挂载BOS类型的数据集在线服务部署: - 部署在线服务时支持CCR免密登录 - 在线服务日志持久化默认前60天免费 - 在线服务支持查看文心系列模型的推理性能和流量监控开发机 - 支持CDS扩容 - 预置镜像新增CUDA最新版本 - webIDE支持tensorboard profiler能力 - 10余项细节体验优化权限管理:百舸不同权限角色对于资源池详情页面的二级页面是否可见进行升级优化: - 自运维资源池:队列管理员&队列开发成员对于节点管理、全局配置、资源池拓扑、监控、事件不可见;队列管理只能看到自己所在的队列 - 全托管资源池:队列管理员&队列开发成员对于节点管理、全局配置、监控、变更记录不可见。 |
| 2025-06 |
快速开始:新增模型快速部署(文心ERNIE-4.5系列、π₀系列具身智能、Llama-3.1-Nemotron系列) 资源池: - 自运维资源池:节点批量操作(封锁、解除封锁、移出集群)、物理队列筛选 - 全托管资源池:队列批量移出节点/封锁节点、节点管理筛选优化、列表字段补全(可用区/ID)、支持编辑【备注】字段;全局配置:CCR免密镜像、推理服务公网访问开关、开发机全局配置 分布式训练任务:新增【NVIDIA GR00T N1.5】训练模版;支持设置任务最长运行时长、多任务TensorBoard对比、挂载【对象存储BOS】;任务日志默认对接【日志服务BLS】(免费60天);监控新增VPC网络带宽/收发包、CPU/内存利用率 在线服务部署:支持查看服务/实例事件;新增服务维度资源/性能监控大盘;支持按状态筛选服务 开发机:新增时间线/ssh/节点IP字段展示;托管资源池支持全局配置(细化到用户/用户组);ccr镜像拉取免密 权限管理:百舸接入【Cprom权限】及【AIHCAssetFullControl】策略 |
| 2025-05 |
快速开始:新增DeepSeek-R1-0528系列、Qwen3系列模型快速部署。资源池:增加卡时统计监控大盘,支持按照子用户和工作负载类型进行卡时统计。分布式训练:支持TensorFlow框架,用户可创建tensorflowjob的训练任务。分布式训练:支持设置任务的可见范围,支持设置队列内可见和仅创建人可见,实现任务实例级别的权限控制。开发机:新增开发机配额管理选项,支持管理员by资源池维度限制成员创建开发机数量、GPU卡数、CPU核数、内存量、CDS用量,提升资源利用率。开发机:新增支持开发机所有者变更、公共开发机、按所有者搜索开发机、列表字段管理等能力。开发机:全面接入云审计,支持用户常用操作、api调用记录、查询、审计。开发机:常见错误可读性优化,支持CDS计费显示,帮助用户更清晰用量与成本,支持BOS免密挂载,新增10多项页面交互细节优化。 |
| 2025-04 |
快速开始:提供快速开始入口,支持主流大语言模型基于vLLM、SGlang加速框架快速部署。分布式训练:创建训练任务支持指定节点调度;分布式训练:任务容错后,支持查询历史的worker信息。分布式训练:新增 rdt、openpi模型的训练模版,可一键发起模型训练。开发机:新增支持托管资源池;上线GPU虚拟化能力;支持多pfs挂载、数据集挂载、存储挂载权限管理;支持开发机所有权管理、公共开发机能力。开发机:基础环境全量升级,所有客户支持最新版开发机;开发机状态流转优化,流转状态更清晰;流量接入支持BLB和EIP复用,流量成本降低90%。在线服务:优化PD分离部署的服务管理体验,增加服务组为开启PD分离部署的服务提供统一的流量入口 |
| 2025-03 |
开发机:提升节点可挂载CDS配额,增加单节点可创建开发机实例数量;webIDE支持文心快码,提升开发效率;其它优化8项。分布式训练支持高精度的RDMA网络监控能力,最高支持10ms精度,为故障诊断排除、训练性能调优等提供数据支撑。分布式训练支持使用CFS存储,可指定CFS子目录进行挂载。分布式训练AIAK-Training-LLM 加速模版,新增 DeepSeek-V3/R1 模型的微调模版,包含满血版 V3 和 R1 模型,以及基于 DeepSeek-R1 蒸馏后的六个小模型,可一键发起全系列 DeepSeek 模型精调。在线服务支持分布式推理部署,充分利用分布式计算资源,满足大规模模型推理的性能和规模要求。在线服务支持PD分离部署DeepSeek全尺寸模型,降低延迟,提升吞吐。 |
| 2025-02 |
托管资源池:托管资源池是百舸提供的免运维资源池,托管资源池下,用户无需关注资源池和算力资源的运维管理,由平台保障运维稳定性,为用户提供稳定、可靠、易用的算力管理服务。碎片治理功能:通过对任务诊断与重调度,有效解决分布式训练、小规模推理等场景下的非整机任务导致的资源碎片问题,实现资源高效回收与复用。开发机:支持notebook+vscode集成部署,免EIP跳转;上线新版权限管理、监控等模块;联动升级10+项产品细节体验提升。在线服务:通过自定义部署的在线推理服务支持通过AI网关接入流量并提供服务鉴权能力。工具市场:新增Deepseek-R1应用快速部署镜像,新增联网搜索工具镜像。 |
| 2025-01 |
新增工作流功能,支持视频处理工作流模板、数据处理组件,支持使用已有组件编排工作流处理任务(白名单)。开发机完成改版上线,支持开关机持久化数据,内置vscode、jupytertLab等webide,支持开发镜像管理与训练任务联动,支持低利用率关机等一系列服务于开发体验提升、资源利用率提升的重要优化。训练容错支持无条件重试能力,在训练异常时自动重调度任务尝试恢复,避免偶发性异常导致的训练中断问题。 百舸平台权限管理升级,支持资源池、队列资源的细粒度的权限配置,满足多团队使用的资源隔离场景。支持CPU资源创建和纳管,支持创建纯CPU工作负载,用于数据处理、开发等场景。 |
| 2024-12 |
新增模型管理,支持自定义模型创建,用户可以将自有模型在模型管理中统一管理(12.27)。 创建分布式训练任务,支持用户自定义设置任务的提交时间。 训练任务历史日志,支持关键字检索&上下文查询&日志展示字段可配置。 百度自研高性能通信库BCCL易用性增强,平台支持用户在创建训练任务时,一键注入BCCL通信库。 训练任务资源监控,支持任务维度的PFS并行文件存储的带宽和IOPS指标监控。 训练任务预置启动超时时间,默认1h。启动超过1h的任务,平台会自动将任务直接置为失败,仅支持Pytorchjob。 在线服务部署支持定时、弹性扩缩容实例。 支持调度诊断功能,对于长期排队中的任务(排队超过5min)可执行调度诊断,定位任务排队原因并提供解决方案,提升问题解决效率。 支持物理队列资源转让功能,支持选择节点和目标队列进行资源转让,无需手动从物理队列移出移入节点。 对于新建资源池和新建节点场景,百舸提供可用性检查能力,检查资源池和节点是否异常。 推理加速支持大语言模型、多模态模型等,提供更丰富的模型选择。 |
| 2024-11 |
自定义服务支持定时自动扩缩容、根据自定义业务指标弹性扩缩容。 新增数据集管理,支持数据集创建、权限管理以及在训练任务中挂载数据集。新增开发机可见范围,支持所有者可见、公开可见。新增开发机、在线服务部署、工具市场支持管理员控制创建时是否可以开启外网。训练容错,支持快速识别和感知训练NCCL/CUDA日志中的典型异常,快速容错,减少故障恢复时间。自定义服务容错,GPU卡级别故障实例能够快速在健康节点重建。基于百度云高性能集合通信库BCCL,新增支持训练hang场景的诊断。轻量服务更名为工具市场,开源工具支持部署到通用资源池,上线模型评测、模型微调、语音合成等工具。添加轻量计算实例无需重装操作系统。 |
| 2024-10 |
资源调度策略升级,新增Fifo调度策略,实现按照任务创建时间进行严格排队,解决遍历策略下大任务长期无法获得资源的问题。任务消息通知,新增 任务发生容错、任务所在节点异常 的通知事件。训练容错,支持基于日志关键字的容错能力,满足自定义训练异常进行容错的场景。轻量计算实例可添加CPU服务器和边缘GPU云服务器。自定义服务支持挂载本地盘。 |
| 2024-09 |
模型部署参数增加,提高模型请求补偿项可选性,优化结束符号超时问题支持Multi lora推理服务热更新,保持原有服务稳定。开发机支持自定义镜像。工具市场支持挂载CFS存储、可部署到边缘BEC云服务器。支持通过百舸控制台创建弹性队列、层级队列。可基于队列不同配额设置实现训推混部、潮汐混部,提升资源利用效率。支持以自定义镜像的方式部署在线服务,提供可配置的健康检查、滚动更新策略,保证服务稳定性、细粒度的流量控制及版本管理。训练任务消息通知,新增短信、电话、企业微信/钉钉、自定义webhook通知方式。训练任务实时日志支持关键字检索。提供CLI命令行,支持资源池/节点/训练任务的管理。创建中、排队中的任务支持停止操作,新增记录停止人的功能。训练任务使用PFS,支持指定PFS子目录挂载。 |
| 2024-08 |
新增开发机模块,为开发者提供的在线编译、调试代码和模型开发环境。新增工具市场功能,集成主流AI开源项目和百舸自研产品镜像模版,可面向中小企业提供一键快速部署AI场景所需工具和工具托管能力,以快速搭建开发调试环境。 |
| 2024-07 |
百舸控制台支持创建NPU资源池,支持NPU、英伟达同一资源池混合部署,统一管理。 创建资源池时,网络模式支持选择VPC-ENI,提供更灵活的容器网络配置能力。 |
| 2024-06 |
发布百舸OpenAPI,支持资源池、队列、训练任务的管理。百舸资源视图新增空闲资源统计功能,支持查看集群实时空闲资源分布情况及历史趋势。训练任务性能监控,新增 lm loss指标。训练任务集合通信带宽监控大盘,支持按照通信类型进行带宽汇聚分析、新增 RankId 信息。llama、qwen系列的模型部署推理服务时支持Multi lora,可以将多个lora模型和base模型合并部署,提升资源利用率。 支持通过实例和服务维度查看推理服务业务监控。推理服务新增支持Qwen2系列模型。 |
| 2024-05 |
新增AI加速套件,整合AIAK训练、推理加速镜像及训推加速过程中所需的一系列工具,轻松一键获取。推理服务支持实例反亲和部署,避免单节点故障导致服务不可用。推理服务实例弹性伸缩,在业务负载出现波峰或波谷时,可以根据业务流量自动调整实例数量,实现动态管理线上服务的计算资源,从而保障业务平稳运行并提高资源利用率。推理服务支持设置防抢占策略,开启后实例不会被训练任务抢占。发布队列维度可观测大盘,支持监控队列维度GPU利用率、分配率、超发率等关键指标。训练任务支持用户自定义配置CPU、内存以及共享内存资源配额,用户可根据业务需求按需配置。 |
| 2024-04 |
训练加速模型支持新增 Qwen1.5 和 Mixtral 系列模型。推理加速模型支持Qwen 1.5系列,InternLM2-20B以及Mixtral-7Bx8等模型。训练任务性能监控,训练吞吐指标兼容动态seq-length场景。 |
| 2024-03 |
支持训练任务Timeline,便于用户快速查询任务运行的重要时间节点。基于百度云集合通信库BCCL,提供训练任务集合通信带宽可观测能力,为故障诊断排除、训练性能调优等提供数据支撑。基于AIAK-Training 训练加速工具包,提供训练任务吞吐、训练分阶段耗时等性能监控指标,便于用户实时掌握训练的性能。支持RDMA Tor拓扑感知功能,减少训练过程中跨TOR通信的频率,提升训练效率。 |
| 2024-02 |
训练任务集成Tensorboard能力,支持通过Tensorboard查看训练结果分析报告。任务资源监控新增GPU NVLink带宽、RDMA网络收发包等指标;节点维度监控新增磁盘/CPU/内存等资源统计,便于用户直观监控任务所在节点的运行情况。百舸平台全面支持昇腾芯片,允许用户基于昇腾芯片快速搭建资源池,并支持节点健康状态的实时监测功能。同时支持部署和管理基于昇腾芯片的训练任务,提供训练可观测和自动容错等基础功能,满足用户在百舸上使用昇腾芯片进行业务部署的场景。 |
| 2024-01 |
提供训练任务资源监控大盘,支持快速查看任务/实例/GPU/节点维度的资源使用情况。提供训练任务事件列表,支持查询任务以及关联资源在启动、运行阶段的变更情况,有助于日常观察任务变更以及定位问题。提供资源池拓扑功能,支持查看资源池节点和任务的可视化拓扑。 |
| 2023-12 |
提供资源视图大盘和组件稳定性大盘,支持快速查看资源使用情况和组件关键指标。支持设置/修改任务优先级,按优先级高低进行任务调度。支持资源池事件中心,统一记录资源池所有事件,并持久化保存,方便问题排查和追溯。 |
| 2023-11 |
提供CheckPoint加速能力,降低保存Checkpoint的时间开销。训练任务支持一键重跑,提高任务提交效率。训练任务日志一键导出,快速下载任务日志,提高问题排查效率。 |
| 2023-10 |
推理服务新增Llama2、ChatGLM2、Baichuan1&2模型。提供资源视图列表,支持集群/节点/GPU卡资源分配和空闲状态查看&分析。 |
| 2023-09 |
支持资源池节点故障感知&隔离,自动感知故障并封锁故障节点。支持RDMA Test,表单化执行benchmark测试,以评估集群网络性能。 |
| 2023-08 |
提供开源数据集加速下载、开源模型权重加速下载以及数据转储。支持大模型推理部署服务,提供主流开源大模型快速部署和加速。 |
| 2023-07 |
支持任务自动容错,主动感知硬件故障,自动重启任务。支持MPI类型任务,可基于MPI框架直接运行任务。支持本地盘存储方案,支持本地盘或文件系统以HostPath方式挂载到资源池并使用。 |
| 2023-06 |
提供NCCL检测功能,表单化执行benchmark测试,无需手动创建nccl test任务。提供训练任务模板,支持主流开源大模型一键训练加速。支持训练任务状态感知、训练效果LOSS异常感知,通过短信、邮件等方式向告警接收人发送任务信息。 |
| 2023-05 |
百舸异构计算平台AIHC正式发布,支持资源池创建和管理,Pytorch任务创建和管理。 |