0.1.6 CCE v1.18 及以上 2024.01.24 新增两个自愈操作:重启 Kubelet 和 重启容器运行时 -
YAML 复制 1 spec: 2 groups: 3 - name: machine_cpu_mem_usage_active 4 interval: 30s 5 rules: 6 - record: machine_memory_usage_active 7 expr: 100*(1-node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes
ce-volcano-cli queue -f volcano.1695461246.snapshot case2 混合卡调度 对于混合申请的场景,工具提供了 totalGPU字段 ,用于统计实际剩余的卡数,可以看到总卡数为8,已分配5卡,排队中4卡,剩余卡为-1。
Plain Text 复制 1 apiVersion: networking.k8s.io/v1 2 kind: NetworkPolicy 3 metadata: 4 name: default-deny 5 namespace: staging 6 spec: 7 podSelector: {} 8 policyTypes: 9 - Ingress 允许namespace=staging中Pod
34, 0.08);color:rgba(0, 0, 0, 0.85);font-weight:bold;text-align:left;vertical-align:top} 监控项 说明 总卡数 当前节点内全部GPU卡数 分配数 当前节点内已分配的GPU卡数 卡分配率 分配率=已分配GPU卡数/总GPU卡数 卡使用情况 .tg {border-collapse:collapse;border-spacing
YAML 复制 1 spec: 2 hostNetwork: false 3 4 containers: 5 - name: nginx 6 ports: 7 - containerPort: 80 四.
在新建任务页面中,完成任务基本信息配置: 任务名称:自定义任务名称,支持小写字母、数字、以及-或.且开头与结尾必须是小写字母或者数字,长度 1-65。 命名空间:选择新建任务所在的命名空间。 队列:选择新建任务关联的队列。 任务优先级:选择任务对应的任务优先级。 允许超发:允许超发将使用任务抢占超发功能,需要先安装CCE AI Job Scheduler组件并升级到1.4.0及以上版本。
组件功能 容器的特性决定了容器本身是非持久化的,容器被删除,其上的数据也一并删除。存储卷Volume可以解决容器的数据共享和持久化存储问题,PV(PersistentVolume)和PVC(PersistentVolumeClaim)是K8S提供的用于抽象存储细节的API资源。
组件功能 数据集抽象 数据预热与加速 数据应用协同编排 多命名空间支持 异构数据源管理 使用场景 通过在使用数据集来创建AI训练任务,以提升数据访问速度加速机器学习训练 限制说明 支持 v1.16 至 v1.26.9 版本的Kubernetes集群。更多版本敬请期待。 安装组件 登录 百度智能云官网 ,并进入管理控制台。
组件功能 容器的特性决定了容器本身是非持久化的,容器被删除,其上的数据也一并删除。存储卷Volume可以解决容器的数据共享和持久化存储问题,PV(PersistentVolume)和PVC(PersistentVolumeClaim)是K8S提供的用于抽象存储细节的API资源。