HAS-agent组件安装与升级
更新时间:2023-05-23
介绍
硬件感知服务(Hardware-Aware Service,或称HAS)是一款线上硬件故障监控修复、功耗和资源管理工具,主要功能包括故障感知、功耗感知、资源感知、性能感知四大部分,提供了一系列的线上硬件的配置/状态监控,故障检测与修复,健康预警,功耗、擦除及相关硬件自动化管理功能,并提供统一的硬件资源状态查询、推送和管理接口。
在云服务器BCC、百度太行·弹性裸金属服务器BBC上,我们会在实例上默认部署HAS-Agent。当用户需要手动升级新版本的HAS-Agent,或者用户因为部分错误操作删除了HAS-agent后,我们建议您按照本文档下述指引重新安装,以获取到完整的、全方位的硬件感知能力,帮助您提高系统可用性,并能够顺利使用BCM事件监控、维修中心的完整能力。
安装(升级)HAS-agent
在安装或升级之前,您需要确认实例当前的操作系统是否符合要求。当前Has-agent可适配的操作系统主要面向linux os,包括Redhat、Centos、Ubuntu、Fedora、Debian、Slackware、欧拉。
升级资源
- 安装包:has-agent-5.0.0.4.tar.gz
- MD5: 765d37dad42b38a6d257048acfb8e11f
- 命令:
wget --http-user=BaiduIDC --http-passwd=123456 http://has-master-a.sdns.baidu.com/download/qa_packages/bbc/has-agent-5.0.0.4.tar.gz
升级步骤
安装包 has-agent-5.0.0.4.tar.gz手动升级
- 下载"升级资源"对应安装包。
- 解压安装包。
tar -xvf has-agent-5.0.0.4.tar.gz
- 进入对应的目录。
cd has-agent-5.0.0.4
- 如果您的实例上仍然存在has服务,只做升级,需要停用HAS-agent旧版本。
./standalone.sh stop
- 安装并启动新版本HAS-agent。
./standalone.sh install
./standalone.sh restart
- 安装完成,检查:cat /home/opt/has/VERSION 看版本, 最后显示红框内容为正确版本,升级成功。
需要显示版本号为:
"has_version" : "1.1.4.69"
- 检查has是否正常。
curl -s ip:428/self/basic
验证步骤
- 部署完成has之后,等待10分钟,执行第一个测试:
curl -s 127.0.0.1:428|grep reason
如果服务正常,返回结果的输出都是pass,如下图:
2.如果是GPU实例,可以看gpu的检查结果:
curl 127.0.0.1:428/gpu
如下图: