百舸集群预安装组件列表
更新时间:2023-12-01
预安装组件名称 | 说明 |
---|---|
CCE GPU Manager | GPU架构感知等高级调度,支持GPU算力和显存的共享与隔离 https://cloud.baidu.com/doc/CCE/s/1kp80bcb4 |
CCE AI Job Scheduler | 适配AI训练场景,支持批量调度,队列管理等 https://cloud.baidu.com/doc/CCE/s/akp81ro8j |
CCE Deep Learning Frameworks Operator | 提供分布式模型训练、部署等功能,支持TensorFlow、Pytorch、Mxnet、PaddlePaddle框架 https://cloud.baidu.com/doc/CCE/s/Dkp814hyo |
CCE RDMA Device Plugin | 高性能实例之间的网络通信,提供高性能网络 https://cloud.baidu.com/doc/CCE/s/Qkp81mtzj |
CCE CSI PFS Plugin | 支持在Pod中以PV/PVC方式挂载百度云PFS存储,并支持动态创建PV https://cloud.baidu.com/doc/CCE/s/slc792j5c |
CCE Node Problem Detector | 实时检测节点上各种异常情况,并将检测结果上报至集群 https://cloud.baidu.com/doc/CCE/s/Qlfq88ert |
CCE Node Remedier | 节点自动维修系统,实现节点故障自愈 https://cloud.baidu.com/doc/CCE/s/blgkja64g |
CCE Log Operator | 采集集群中的日志信息传输至日志服务(BLS)中进行持久化存储 https://cloud.baidu.com/doc/CCE/s/Glc8zpk34 |