2024-08 |
新增开发机模块,为开发者提供的在线编译、调试代码和模型开发环境。新增轻量服务功能,集成主流AI开源项目和百舸自研产品镜像模版,可面向中小企业提供一键快速轻量服务和服务托管能力,免集群运维,以快速搭建开发调试环境。 |
2024-07 |
百舸控制台支持创建昆仑芯P800资源池,支持昆仑芯、英伟达同一资源池混合部署,统一管理。 创建资源池时,网络模式支持选择VPC-ENI,提供更灵活的容器网络配置能力。 |
2024-06 |
发布百舸OpenAPI,支持资源池、队列、训练任务的管理。百舸资源视图新增空闲资源统计功能,支持查看集群实时空闲资源分布情况及历史趋势。训练任务性能监控,新增 lm loss指标。训练任务集合通信带宽监控大盘,支持按照通信类型进行带宽汇聚分析、新增 RankId 信息。llama、qwen系列的模型部署推理服务时支持Multi lora,可以将多个lora模型和base模型合并部署,提升资源利用率。 支持通过实例和服务维度查看推理服务业务监控。推理服务新增支持Qwen2系列模型。 |
2024-05 |
新增AI加速套件,整合AIAK训练、推理加速镜像及训推加速过程中所需的一系列工具,轻松一键获取。推理服务支持实例反亲和部署,避免单节点故障导致服务不可用。推理服务实例弹性伸缩,在业务负载出现波峰或波谷时,可以根据业务流量自动调整实例数量,实现动态管理线上服务的计算资源,从而保障业务平稳运行并提高资源利用率。推理服务支持设置防抢占策略,开启后实例不会被训练任务抢占。发布队列维度可观测大盘,支持监控队列维度GPU利用率、分配率、超发率等关键指标。训练任务支持用户自定义配置CPU、内存以及共享内存资源配额,用户可根据业务需求按需配置。 |
2024-04 |
训练加速模型支持新增 Qwen1.5 和 Mixtral 系列模型。推理加速模型支持Qwen 1.5系列,InternLM2-20B以及Mixtral-7Bx8等模型。训练任务性能监控,训练吞吐指标兼容动态seq-length场景。 |
2024-03 |
支持训练任务Timeline,便于用户快速查询任务运行的重要时间节点。基于百度云集合通信库BCCL,提供训练任务集合通信带宽可观测能力,为故障诊断排除、训练性能调优等提供数据支撑。基于AIAK-Training 训练加速工具包,提供训练任务吞吐、训练分阶段耗时等性能监控指标,便于用户实时掌握训练的性能。支持RDMA Tor拓扑感知功能,减少训练过程中跨TOR通信的频率,提升训练效率。 |
2024-02 |
训练任务集成Tensorboard能力,支持通过Tensorboard查看训练结果分析报告。任务资源监控新增GPU NVLink带宽、RDMA网络收发包等指标;节点维度监控新增磁盘/CPU/内存等资源统计,便于用户直观监控任务所在节点的运行情况。百舸平台全面支持昇腾芯片,允许用户基于昇腾芯片快速搭建资源池,并支持节点健康状态的实时监测功能。同时支持部署和管理基于昇腾芯片的训练任务,提供训练可观测和自动容错等基础功能,满足用户在百舸上使用昇腾芯片进行业务部署的场景。 |
2024-01 |
提供训练任务资源监控大盘,支持快速查看任务/实例/GPU/节点维度的资源使用情况。提供训练任务事件列表,支持查询任务以及关联资源在启动、运行阶段的变更情况,有助于日常观察任务变更以及定位问题。提供资源池拓扑功能,支持查看资源池节点和任务的可视化拓扑。 |
2023-12 |
提供资源视图大盘和组件稳定性大盘,支持快速查看资源使用情况和组件关键指标。支持设置/修改任务优先级,按优先级高低进行任务调度。支持资源池事件中心,统一记录资源池所有事件,并持久化保存,方便问题排查和追溯。 |
2023-11 |
提供CheckPoint加速能力,降低保存Checkpoint的时间开销。训练任务支持一键重跑,提高任务提交效率。训练任务日志一键导出,快速下载任务日志,提高问题排查效率。 |
2023-10 |
推理服务新增Llama2、ChatGLM2、Baichuan1&2模型。提供资源视图列表,支持集群/节点/GPU卡资源分配和空闲状态查看&分析。 |
2023-09 |
支持资源池节点故障感知&隔离,自动感知故障并封锁故障节点。支持RDMA Test,表单化执行benchmark测试,以评估集群网络性能。 |
2023-08 |
提供开源数据集加速下载、开源模型权重加速下载以及数据转储。支持大模型推理部署服务,提供主流开源大模型快速部署和加速。 |
2023-07 |
支持任务自动容错,主动感知硬件故障,自动重启任务。支持MPI类型任务,可基于MPI框架直接运行任务。支持本地盘存储方案,支持本地盘或文件系统以HostPath方式挂载到资源池并使用。 |
2023-06 |
提供NCCL检测功能,表单化执行benchmark测试,无需手动创建nccl test任务。提供训练任务模板,支持主流开源大模型一键训练加速。支持训练任务状态感知、训练效果LOSS异常感知,通过短信、邮件等方式向告警接收人发送任务信息。 |
2023-05 |
百舸异构计算平台AIHC正式发布,支持资源池创建和管理,Pytorch任务创建和管理。 |