使用Prometheus监控集群
更新时间:2024-05-23
监控概述
CCE集群支持快速启用百度智能云 Prometheus 监控服务,以实时监控集群和容器的健康状况,并查看可视化的 Grafana 监控数据大盘,您还可按需配置联系人接收监控报警、配置 Prometheus 抓取自定义的监控指标等。
百度智能云 Prometheus 监控介绍
百度智能云 Prometheus 监控服务致力于提供轻量、稳定、高可用的服务。保留原生 Prometheus 的特性,支持采集自定义指标,支持千万级指标上报,提供基于 Grafana 的优秀可视化能力和预置默认面板,提供稳定的告警能力。 与自建 Prometheus 环境相比,您无需手工下载、配置 Prometheus 环境,无需考虑维护海量数据的存储成本。同时,Prometheus 监控兼容开源 Prometheus 的接口以及社区 Exporter 生态,提供免搭建、免运维的 Prometheus 集成环境,减少开发及运维成本。
说明
- 百度智能云 Prometheus 的详细介绍,请参见什么是Prometheus监控。
- 启用 Prometheus 后,Prometheus 监控将采集集群中的容器监控指标。默认采集的指标均为百度智能云 Prometheus 基础指标,在默认情况下不会产生费用。但是,若您调整了指标存储时长,或上报了自定义指标,将会产生额外计费。关于百度智能云 Prometheus 的计费说明,请参见计费说明。
接入 Prometheus 监控实例
前提条件
- 已开通容器引擎CCE、百度智能云 Prometheus 服务,您可以登录Prometheus服务控制台确认是否开通。
- 已成功创建CCE集群,详情请参见创建CCE集群。
CCE集群接入 CProm 监控实例
- 登录容器引擎控制台。
- 在左侧导航栏,选择集群列表。
- 在“集群列表”页面单击目标集群,进入集群管理页面。
- 在集群管理页面左侧导航栏中选择监控日志 > Prometheus 监控。
- 单击接入实例,弹出接入 CProm 监控弹窗,您可以选择接入与 CCE 集群相同地域中已有的监控实例,也可以选择新建监控实例,点击确认,完成配置。
- 接入 CProm 监控实例后,控制台会自动安装组件、检查监控大盘。安装完成后,您可以单击各个页签查看相应监控数据。
说明
- 接入 CProm 监控实例,系统会默认在 CCE 集群安装监控组件。该组件用于采集 CCE 集群的各项监控指标,安装该组件会占用 CCE 集群一定资源,建议集群预留0.2核200Mi以上的资源,防止因资源不足导致实例接入失败。
- 您也可以选择登录Prometheus服务控制台选择 CProm 监控实例关联 CCE 集群,详情参考CProm监控实例关联集群。
- 接入 CProm 监控实例后会默认开启采集规则,如果您想要采集自定义业务指标,支持通过创建自定义采集任务,来满足您采集自定义指标需求,详情请参见采集配置。
查看监控面板
在容器引擎控制台的 Prometheus 监控页面,切换页签选择需要查看系统预置的 Grafana 监控大盘,获取相应的监控数据。监控面板支持设置查询的时间段,并指定刷新方式(手动刷新、自动刷新)。
配置 Promethues 监控告警
您可以为监控指标创建告警,在满足告警条件时通过邮件、短信、钉钉等渠道实时报警,主动帮助您发现异常。您可以在托管 Prometheus 的告警中心配置集群相关告警。