如何检测RDMA常见故障 在GPU云服务器使用过程中可能会出现RDMA硬件故障或者亚健康状态,如果您发现应用程序出现报错或者RDMA硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例等方式修复,如果问题持续发生,请您提交工单。 网卡状态检测 您可通过以下检测方法,判断当前实例是否存在网卡状态故障。 检测步骤 登录实例。
硬盘数据迁移教程 用户可在数据流转平台提交硬盘迁移任务,查看任务进展和管理硬盘寄送的全流程,包括:提交硬盘迁移任务、硬盘邮寄、上传BOS后验证数据、获确定签收硬盘等。整体流程如下图: 迁移中您有任何问题可提交工单,专业技术支持工程师将及时处理 。
检测网络配置 在镜像导入前,确保您的系统获取网络地址的方式为动态获取。 Linux系统检查网络获取方式 CentOS系统查看网络配置 [root@localhost ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=dh
如何检测GPU常见故障 在GPU云服务器使用过程中可能会出现GPU硬件故障或者亚健康状态,如果您发现应用程序出现报错或者GPU硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例或者重置GPU卡等方式修复,如果问题持续发生,请您提交工单。 掉卡故障检测 您可依次通过以下几种检测方法,判断当前实例是否存在GPU掉卡故障。 方法一:检测GPU掉卡数量 检测步骤 登录实例。
根据实例id查询实例列表 该接口用于根据实例ID查询实例列表。 请求结构 POST /v{version}/instance/listByInstanceId?marker={marker}&maxKeys={maxKeys} HTTP/1.1 Host: bcc.bj.baidubce.com Authorization: authorization string { "ins
查看GPU云服务器监控 对比BCC云服务器,GPU云服务器中包含额外的硬件,例如GPU卡以及RDMA网卡。GPU云服务器支持对这些硬件资源进行监控,相关的监控指标项可在 云产品指标列表 中查询。以下为如何查看GPU实例的监控数据。 GPU监控和GPU扩展监控依赖实例已安装了GPU驱动,如何安装GPU驱动可参考 GPU创建 。
什么是云服务器BCC 云服务器BCC(Baidu Cloud Compute)是处理能力可弹性伸缩的计算服务。管理方式比物理服务器更简单高效,可根据您的业务需要创建、释放任意多台云服务器实例,提升运维效率。为您快速部署应用构建稳定可靠的基础,降低网络规模计算的难度,使您更专注于核心业务创新,且无需花费时间和金钱来购买及维护托管虚拟机的硬件,有效降低IT成本。
连接方式 网络连接方式 :支持公网连接和内网连接,即使云服务器没有绑定公网IP,也可以通过内网连接的方式登录云服务器。 说明:若您选择公网连接,则会通过您的公网IP连接云服务器,会产生一些网络流量。 登录方式 :支持密码、密钥登录方式。 多实例管理 SmartTerm支持同时连接多台云服务器实例,您可以通过点击左侧栏里展示的实例登录,连接同地域下多台实例。
配置Linux 分析工具atop和kdump atop atop是一个功能非常强大的linux服务器监控工具。 它以一定的频率记录系统的运行状态,所采集的数据包含系统资源(CPU、内存、磁盘、网络)的使用情况和进程运行情况。 并以日志文件的方式保存在磁盘中,服务器出现问题后,我们可以获取相应的atop日志文件进行分析。
云顾问可以理解为是云服务器的“体检报告”,便于全方位细致了解服务器存在的隐患。 官方产品文档: 云顾问ACA