故障类问题

作业运行失败怎么办?

可以在集群的作业列表中,找到运行失败作业的日志,分别为syslog、stderr、stdout三个日志。其中Syslog日志记录了作业运行的信息,stderr记录了作业运行失败的原因,stdout记录了作业运行的过程中输出的信息。通过查看stderr日志,找到作业运行失败的原因并进行修复,再次运行作业。

作业为什么会运行失败?

1:作业在BOS中的输入目录不存在或者输出目录已存在,导致reduce task无法读取或写入数据,从而造成作业失败。

解决方案:请确保BOS中输入目录存在且输出目录不存在。

2:作业本身存在错误。

解决方案:若您提交的是Custom JAR、Spark、Pig类型作业,有可能是您自定义的参数不符合规范。可查阅task日志,找出对应错误,对作业进行修复。

3:输入参数有问题。

解决方案:可能是输入的参数关键字拼写有问题。通过查阅task日志,找出对应错误,对作业进行修复。

作业为什么会提交失败?

1:参数设置不符合标准的格式规范。

解决方案:根据页面返回的错误信息,参阅新手指南的新建各类型作业的参数配置,进行相应的修改,。

2:作业数目超过256个。

解决方案:按照提示,新建集群,在新建的集群中添加作业。

集群为什么会自动终止?

说明集群在处理作业时,遇到了一些意外,比如输入的bos地址不存在,或者用户对这个地址没有相应的处理权限等。且用户在对作业进行设置时,在【失败后的操作】选择了销毁集群,从而当作业运行失败后,集群会自动终止。这种情况大多数是由于用户对作业的设置不符合规定从而导致的,可检查errlog日志,重新对作业进行设置。