2023-12 |
提供资源视图大盘和组件稳定性大盘,支持快速查看资源使用情况和组件关键指标。支持设置/修改任务优先级,按优先级高低进行任务调度。支持资源池事件中心,统一记录资源池所有事件,并持久化保存,方便问题排查和追溯。 |
2023-11 |
提供CheckPoint加速能力,降低保存Checkpoint的时间开销。训练任务支持一键重跑,提高任务提交效率。训练任务日志一键导出,快速下载任务日志,提高问题排查效率。 |
2023-10 |
推理服务新增Llama2、ChatGLM2、Baichuan1&2模型。提供资源视图列表,支持集群/节点/GPU卡资源分配和空闲状态查看&分析。 |
2023-09 |
支持资源池节点故障感知&隔离,自动感知故障并封锁故障节点。支持RDMA Test,表单化执行benchmark测试,以评估集群网络性能。 |
2023-08 |
提供开源数据集加速下载、开源模型权重加速下载以及数据转储。支持大模型推理部署服务,提供主流开源大模型快速部署和加速。 |
2023-07 |
支持任务自动容错,主动感知硬件故障,自动重启任务。支持MPI类型任务,可基于MPI框架直接运行任务。支持本地盘存储方案,支持本地盘或文件系统以HostPath方式挂载到资源池并使用。 |
2023-06 |
提供NCCL检测功能,表单化执行benchmark测试,无需手动创建nccl test任务。提供训练任务模板,支持主流开源大模型一键训练加速。支持训练任务状态感知、训练效果LOSS异常感知,通过短信、邮件等方式向告警接收人发送任务信息。 |
2023-05 |
百舸异构计算平台AIHC正式发布,支持资源池创建和管理,Pytorch任务创建和管理。 |