维修平台接入说明
维修平台已针对百度智能云所有用户开放,使用前请您确认已完成HAS组件的安装或升级,并在BCM里设置了相关的云产品事件的报警策略,保证故障的及时检测与通知。
HAS组件检查
硬件感知服务(Hardware-Aware Service,或称HAS)是一款线上硬件故障监控修复、功耗和资源管理工具,主要功能包括故障感知、功耗感知、资源感知、性能感知四大部分,提供了一系列的线上硬件的配置/状态监控,故障检测与修复,健康预警,功耗、擦除及相关硬件自动化管理功能,并提供统一的硬件资源状态查询、推送和管理接口。
存活状态查看
您可在实例列表页面查询HAS组件的存活状态,及时安装或更新HAS组件,保证硬件故障的及时检测与维修。
注:HAS Agent安装在宿主机上,BCC暂不涉及该组件,百度智能云会保证BCC宿主机上的HAS Agent保持在最新版本。
安装与升级
当您需要安装或升级HAS组件时,我们建议您按照下述指引重新安装,以获取到完整的、全方位的硬件感知能力,帮助您提高系统可用性,并能够顺利使用维修平台的完整能力。
环境确认
- 在安装或升级之前,您需要确认实例当前的操作系统是否符合要求。当前Has-agent可适配的操作系统主要面向linux os,包括Redhat、Centos、Ubuntu、Fedora、Debian、Slackware、欧拉。
- 检查域名has-master-a.sdns.baidu.com是否通,使用方法:ping has-master-a.sdns.baidu.com
升级组件
- 在/tmp目录下执行:
curl -sm10 http://has-master-a.sdns.baidu.com/download/qa_packages/bbc/has-agent-installer-first.sh
执行输出如下:有个" ERROR: BIO_new_file ........ " ,告警可忽略,不影响升级
结果检测
- 部署后等待10min,has会部署成功,目前是1.1.3.92版本。
- 后续has升级后会自动升级,版本号的第一位或最后一位比现在的版本高都是新版,均符合预期。
- 检查自升级进程,单机上执行如下命令:
ps -ef|grep -v grep |grep "/opt/avalokita/bin/avalokita --update-url=http://has-master-a.sdns.baidu.com/download/qa"
出现保活、自升级进程:
/opt/avalokita/bin/avalokita --update-url=http://has-master-a.sdns.baidu.com/download/qa_packages/bbc//has-agent-installer.sh --signature-url=http://has-master-a.sdns.baidu.com/download/qa_packages/bbc//has-agent-installer.sh.sig --certificate=/home/opt/has-agent/cert.pem --update-interval=3600 --max-executable-size=1000000000 /home/opt/has-agent/has-agent-installer.sh
- 检查has版本和主进程:
curl -s 127.0.0.1:428/self/basic
ps -ef|grep has_client
- 查看资源版本:
- 部署完成在/home/opt下会出现:has和has-agent。
- 查看部署后包的版本如下:
使用cat /home/opt/has/VERSION |head -1
报警策略设置
在维修任务生成以及维修完成时,百度智能云会通过BCM给您推送相关信息,提醒您对故障实例“授权”维修,或者确认维修完成后,实例是否恢复正常。您可在BCM中设置云服务器与弹性裸金属服务器的“云产品事件”的告警策略,以便您能够成功接收到相应实例的告警信息。
- 如无特殊要求,建议您将告警策略设置为对所有实例的所有故障事件的监控。
- 您可以在“报警策略”的“云产品事件”中,查看已设置的告警策略,可以针对实际告警需求,设置多条不同的告警策略;也可随时对策略进行修改、删除等操作。