配置类问题

如何配置集群,使得作业运行完毕后,集群自动终止?

在对集群中的作业进行设置时,在【自动终止】选项中,选择开启,则在作业最后一步完成时,集群会自动终止。

如何配置集群,使得在遇到意外时,可以防止集群自动终止?

用户可以在对集群进行设置时,在【终止保护】选项中,选择【开启】按钮,从而当作业运行过程中遇到故障时,可保护不被立即结束集群。

BMR无法手动停止 job,必须等待它运行完吗?

是的,作业流中的作业不支持在控制台上人工停止作业,需待作业执行完成或者执行失败。但用户可以到集群里,使用 client 操作 kill 作业。

集群是否支持外网登陆?

支持。您可在集群运行期间,使用安全外壳协议(SSH),通过Master节点的公网IP、登陆用户名和密码、以及SSH端口号,连接到Master主节点并实现与集群交互。

- Linux环境下:通过 ssh [username]@[eip] -p [端口号]命令连接Master节点。
- Windows环境下:通过SSH客户端(Putty、SecureCRT及Xshell等)使用SSH协议登录。

Core节点与Task节点的使用区别在哪里,如何选择?

  1. Core节点与Task节点的区别:和Core节点相比,Task节点没有部署hdfs,在增加和减小规模的时候没有丢失hdfs数据副本的风险,因此更加适合用来动态调整集群的计算能力(Core节点存储数据,可以运行DataNode和NodeManager,Task节点只运行NodeManager)。

  2. 如何选择:举例说明,例如处理10G数据,按照128MB切分,一共80个map task,一个计算节点(比如内存最优型)预期需要8个task的话,想尽快完成就需要10个计算节点,如果core配置5个节点,那么task也配5个就可以了。关于core节点数目,如果使用集群内的hdfs,需要根据hdfs中的数据大小规划core节点数量(一般常驻集群是这样的);如果不使用集群内的hdfs,而是使用bos作为数据源,可以使用最少的core节点数量(一般按需启动的集群是这样的)。以上只是一个例子,仅供参考。