百舸集群预安装组件列表
所有文档
menu

百舸异构计算平台 AIHC

百舸集群预安装组件列表

预安装组件名称 说明
CCE GPU Manager GPU架构感知等高级调度,支持GPU算力和显存的共享与隔离
https://cloud.baidu.com/doc/CCE/s/1kp80bcb4
CCE AI Job Scheduler 适配AI训练场景,支持批量调度,队列管理等
https://cloud.baidu.com/doc/CCE/s/akp81ro8j
CCE Deep Learning Frameworks Operator 提供分布式模型训练、部署等功能,支持TensorFlow、Pytorch、Mxnet、PaddlePaddle框架
https://cloud.baidu.com/doc/CCE/s/Dkp814hyo
CCE RDMA Device Plugin 高性能实例之间的网络通信,提供高性能网络
https://cloud.baidu.com/doc/CCE/s/Qkp81mtzj
CCE CSI PFS Plugin 支持在Pod中以PV/PVC方式挂载百度云PFS存储,并支持动态创建PV
https://cloud.baidu.com/doc/CCE/s/slc792j5c
CCE Node Problem Detector 实时检测节点上各种异常情况,并将检测结果上报至集群
https://cloud.baidu.com/doc/CCE/s/Qlfq88ert
CCE Node Remedier 节点自动维修系统,实现节点故障自愈
https://cloud.baidu.com/doc/CCE/s/blgkja64g
CCE Log Operator 采集集群中的日志信息传输至日志服务(BLS)中进行持久化存储
https://cloud.baidu.com/doc/CCE/s/Glc8zpk34
上一篇
模型部署