选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。 单击左侧导航栏中的 集群管理 > 集群列表 。 在集群列表页面中,单击目标集群名称进入集群管理页面。 在集群管理页面单击 组件管理 。 在组件管理列表中选择 Node Local DNS 组件单击“ 安装 ”。 点击“ 确定 ”按钮完成组件的安装。
设置一个内网或外网的服务地址,将前端并发访问转发给后台多台云服务器,实现应用程序的流量均衡。
1)通过表单形式创建: 点击 +创建定时任务 ; 基本信息:填写工作负载名称,选择命名空间、工作负载类型,按需添加K8S标签和注释; 容器配置:填写容器名称,选择镜像地址、版本,调整容器配额,申请加速卡资源点击加速卡资源申请开关并配置,新增容器配置点击 “+添加容器”; 高级设置-任务配置:配置定时规则、定时任务并发策略、定时超时时间、重试最大次数、任务超时时间、重启策略等; 高级设置-调度策略
可能导致 GPU 训练/推理任务中断 MemoryUnhealthy False 是否存在内存故障(仅支持EBC机型) 内存不可用,任务中断 EBC 机型故障检测介绍 针对于EBC弹性裸金属服务器,Node-Problem-Detector对接百度云硬件感知组件 HAS-agent ,新增对GPU/RDMA网卡/CPU/内存等硬件健康检测能力。
CCE 安全组 安全组是一种虚拟防火墙,为同一个私有网络内具有相同安全保护需求并相互信任的云服务器提供访问策略,具备状态检测和数据包过滤能力,用于在云端划分安全域,是重要的网络安全隔离手段。 您可以通过配置安全组规则控制安全组内云服务器的入流量和出流量。更多安全组介绍,请参见 安全组 。
虚拟节点和百度智能云容器实例BCI 百度智能云容器实例BCI 提供无服务器化的容器资源。您只需提供容器镜像及启动容器所需的配置参数,即可运行容器,而无需关心这些容器如何被调度部署到底层的物理服务器资源中。BCI服务将为您完成IaaS层资源的调度和运维工作,从而简化您对容器的使用流程,降低部署和维护成本。同时BCI只会对您创建容器时申请的资源计费,因此实现真正的按需付费。
1)通过表单形式创建: 填写普通任务名称、命名空间和标签; 在第二页容器配置页面,填入容器名称、镜像地址和容器配置信息; 在第三页高级设置页面,设置任务配置、调度策略,完成创建。 (2)通过 yaml 形式创建: 选择命名空间,填写 yaml 文件,点击确定。 模板类型:可使用示例模板或我的模板创建。
连接BCI实例 在完成容器部署后,您可以通过容器实例BCI控制台,使用WebSSH连接BCI实例中的容器,执行命令进行调试。本文介绍如何连接BCI实例。 前提条件 实例中的容器处于 运行中 状态。 操作步骤 登录 容器实例BCI控制台 。 在顶部菜单栏左上角处选择区域。 在 容器组列表 页面,选择您想要调试的实例,单击 WebSSH 。
MPS使用单卡时,运行在其他GPU上的客户端进程不受影响 一旦观察到致命异常,MPS服务器将等待与受影响gpu关联的所有客户端退出,禁止连接到这些gpu的新客户端加入。当与受影响的GPU关联的所有现有客户端都退出时,MPS服务器将在受影响的GPU上重新创建GPU上下文,并继续处理客户端对这些GPU的请求。
此处需填写文件路径,不能为目录 采集容器内文件时需将容器内日志文件所在目录以 emptydir 形式挂载至宿主机。