发起训练任务失败诊断 描述 dui 训练任务框架为 pytorch 且状态为 失败 的任务进行智能诊断。
获取连接信息 1.获取连接信息 在列表中,点击上一步骤中创建设备的名称,进入设备详情页。在连接信息栏目,找到「DeviceSecret」字段,点击右侧小眼睛图标,查看连接信息,包含IoTCoreId、DeviceKey 和 DeviceSecret。
检查远程连接时输入的IP地址是否与控制台中显示的一致,如果输入不一致或者直接输入的内网IP,也是无法远程连接的,确认IP输入无误后如果依然无法连接,可以继续按照下面的步骤进行排查。
通过 cat ~/.ssh/id_rsa.pub 命令获取本地机器的公钥 在开发机创建页面,打开 SSH远程开发 ,填写公钥,多个公钥请通过换行输入(请确保本地的私钥文件和填写的公钥文件是一对,否则会连接失败,暂时不支持公钥编辑,因此更新公钥时需要通过【制作镜像】对当前开发机进行备份,然后通过备份镜像创建新的开发机) 连接 待开发机为运行中状态时,进入开发机详情页可以查看SSH的连接地址和端口号 使用公网或私网登录时
终止进程后,观察是否可以远程连接,如果还是无法远程连接,可以继续按照如下步骤排查。
login ,连接到Dashboard。
第四步:使用xshell连接windows服务器 1.在xshell左上角-文件-新建。 2.在会话中设置对应名称和对应的主机IP(服务器的IP地址)。 3.点击用户身份验证,输入对应的远程连接账号密码之后点击确定。 4.点击文件-打开进入会话页面。 5.双击之前创建的会话连接即可。 6.测试成功连接。
排查方法:在容器中执行 curl 服务器IP:端口号 若出现curl: (7) Failed connect to 10.233.42.40:8443; Connection refused,则说明防火墙限制了5535端口,需要用户关掉防火墙,或者单独将8443端口放开 若出现下图所示内容,则说明容器能访问数据库服务,继续进行排查 (2) 也可能是指纹文件发生变化,导致鉴权失败 排查方法:确认是否运行鉴权服务的物理机发生变化
源端连接设置 IP/端口 填入源端 Redis 数据库的访问 IP 与端口(需开放至公网),各分片之间 IP/端口以英文分号分隔,同一分片不同节点的多个地址以英文逗号分隔。 密码 填入该 Redis 数据库密码(未设置可不填)。 目标端连接设置 实例 ID 选择目云数据库 Redis 实例 ID。 配置完成后,点击页面下方的 授权白名单进入下一步 。
但是在虚机第一次启动时有很大的概率会出现自动登录失败,现象如下: 问题原因 新创建的虚机在第一次启动时会先注入一个随机密码,之后再注入创建虚机时指定的密码。这样做的原因是为了安全,防止密码注入失败时所有虚机都用同一个密码。但是新密码注入的时机和Windows自动登录的时机的先后顺序不固定,如果注入密码在自动登录之后,那自动登录就会失败。