使用前提 已经创建集群,且集群中至少有2台具有RDMA网络的GPU实例。 GPU实例镜像中包含ofed和nvidia驱动,这里推荐使用百度智能云提供的GPU镜像,已包含OFED驱动,无需手动安装。
部署应用服务的前提是部署鉴权服务,应用服务在运行时会实时请求鉴权服务,需要保障两个服务之间能够顺利通信。 名词解析 : 基线目录:为了方便介绍目录结果,约定私有化部署解压目录为基线目录,路径为/home/private,读者可以自行替换。 License:由百度发布的服务授权证书,只有经过授权的服务器才能成功部署服务,待部署服务器的信息请使用百度提供的机器指纹采集工具采集指纹后提交给商务经理。
4.11 不论在何种情况下,百度智能云均不对由于计算机病毒、信息网络正常的设备维护,信息网络连接故障,电脑、通讯或其他系统的故障,电力故障,罢工,劳动争议,暴乱,起义,骚乱,生产力或生产资料不足,火灾,洪水,风暴,爆炸,战争,政府行为,司法行政机关的命令或第三方的不作为而造成的不能服务或延迟服务承担责任。
部署应用服务的前提是部署鉴权服务,应用服务在运行时会实时请求鉴权服务,需要保障两个服务之间能够顺利通信。 名词解析 : 基线目录:为了方便介绍目录结果,约定私有化部署解压目录为基线目录,路径为/home/private,读者可以自行替换。 License:由百度发布的服务授权证书,只有经过授权的服务器才能成功部署服务,待部署服务器的信息请使用百度提供的机器指纹采集工具采集指纹后提交到申请后台。
v1.0.0 及以上版本 cilium-cni CCE Cilium CNI 插件,支持网络策略、service加速等。 v1.12.5-baidu 及以上版本 endpoint-probe CCE CCE 提供的 CNI 插件,用于支持 Pod Qos 等能力。 v2.9.0 及以上版本 cptp CCE CCE 提供的默认 CNI 插件,支持Pod基础网络通信能力。
配置HTTPS监听端口指导文档 示例配置如下: 3.启用双向认证(可选) 双向认证,也被称为双向SSL认证或客户端证书认证,是一种加强网络通信安全性的方法。在传统的SSL/TLS连接中,通常只有服务器需要提供证书来验证其身份,而客户端不需要验证。而双向认证要求客户端也提供有效的证书,从而确保双方都经过身份验证。最显著的好处是降低了中间人攻击和伪装的风险。
亚信科技成为百度智能云生态合作伙伴后,双方基于百度领先的人工智能技术加速中国通信行业智能化落地。 在行业布局中,亚信科技正在加紧5G、 云计算 、人工智能、大数据、 物联网 等领域的研究,其业务领域由运营商业务支撑系统扩展至覆盖全行业的云服务、大数据运营、网络智能化服务等领域,并已在金融、交通、邮政、能源、零售和公共服务等领域实现了重大突破。
可能导致节点、Pod 间网络通信中断 2. 可能导致 GPU 训练/推理任务中断 MemoryUnhealthy False 是否存在内存故障(仅支持EBC机型) 内存不可用,任务中断 EBC 机型故障检测介绍 针对于EBC弹性裸金属服务器,Node-Problem-Detector对接百度云硬件感知组件 HAS-agent ,新增对GPU/RDMA网卡/CPU/内存等硬件健康检测能力。
2024 年 04 月 功能名称 变更类型 功能描述 IPv6 新增 支持IPv6,CSN支持转发IPv6流量,提升网络通信的兼容性。 产品计费 优化 新增中转网关连接费和入方向流量费计费项,优化产品计费结构。 2024 年 03 月 功能名称 变更类型 功能描述 全局选路 新增 云智能网支持全局选路能力,支持多地域专线发布相同路由,CSN根据全局选路规则进行全局选路,提升CSN组网灵活性。
接访问问题排查协助 内核调优 自动化部署 制作自定义镜像 Kubernetes 百度智能云提供的Linux系统镜像且kernel版本是4.10以上 Kubernetes官方发布1.8.14以上版本 Kubernetes基础组件异常排查协助 POD调度问题排查协助 网络通信问题排查协助