Agent管理
更新时间:2026-04-15
概述
本文档介绍在 Prometheus 监控服务中,对 CCE 集群采集 Agent 的安装、查看、调整副本数和卸载操作。采集 Agent 是部署在用户侧 Kubernetes 集群中的轻量级采集组件,能够在具备原生采集能力的基础上,最大程度减少资源占用。监控实例可接入相同地域的一个或多个私有网络 VPC(即内网打通监控数据上报通道),并对已接入私有网络 VPC 下的 CCE 集群进行一键关联,开始指标数据的采集和上报。
前提条件
- 已注册并登录百度智能云控制台。若没有用户名,请先完成注册,操作请参考 注册百度账号;若有用户名,登录操作请参考 登录。
- 已创建与目标 CCE 集群同一地域的监控实例,详情参见 创建实例。
- 如需通过私有网络上报监控数据,可在监控实例详情中接入目标集群所在的私有网络 VPC,详情参见 接入网络。
- 目标监控实例所在地域已存在可关联的 CCE 集群;如需查看、调整或卸载 Agent,目标集群中已成功安装 Agent。
安装 Agent
导航路径:产品服务->容器->Prometheus 监控服务->监控实例->实例列表
- 登录 Prometheus 监控服务控制台,在监控实例列表中,点击监控实例名称,进入监控实例详情页面,左侧边栏选择关联集群,可见当前地域下已关联的 CCE 集群列表。
- 点击【关联集群】按钮,会展示未关联的 CCE 集群列表,选中目标 CCE 集群,点击【确定】,系统将在对应的 CCE 集群中,以 Helm 的形式自动部署采集组件 Agent(若目标 CCE 集群所在的私有网络 VPC 未接入到当前监控实例,系统会进行检测并在安装 Agent 前自动完成接入)。

- 安装成功后,可以看到目标 CCE 集群的监控状态由“部署中”变为“运行中”,表明当前监控实例开始对目标 CCE 集群进行指标数据的采集,通过访问 Grafana 可以看到相关数据展示。
查看 Agent 信息和调整 Agent 副本数
重要说明:Agent 副本数量不足可能会导致 Agent 频繁地因内存溢出 (OOM) 而重启,进而造成数据采集延迟甚至丢失。我们强烈建议您 开启并配置 Agent 相关监控,并密切关注其副本的 CPU 和 Memory 资源使用率。一旦观察到资源使用率持续高位或出现 OOM 事件,请立即前往控制台 手动扩容 副本数量。
导航路径:产品服务->容器->Prometheus 监控服务->监控实例->实例列表
- 登录 Prometheus 监控服务控制台,在监控实例列表中,点击监控实例名称,进入监控实例详情页面,选择关联集群,可见当前地域下已关联的 CCE 集群列表。
- 已成功安装 Agent 的集群,可在操作列点击 【采集任务】,进入采集配置详情页面,采集任务页面点击【Agent管理】查看已安装 Agent 的基本信息,包括 Agent 版本、Agent 副本数、Helm 版本、运行时长、更新时间、创建时间。;选择 【Targets 管理】,查看服务发现状态。

- 可点击【调整】对 Agent 副本数进行动态水平伸缩(HPA),增加采集任务负载,提高采集性能和高可用。
- 如需查看 Helm 部署的具体情况,可登录 容器引擎 CCE 控制台,点击 【Helm 实例】,选择对应的集群名称和
cprom-system命名空间,筛选出对应部署的 Helm 实例。也可以登录 Prometheus 监控服务控制台,在监控实例详情的 关联集群 页面,点击集群名称,跳转到 CCE 集群详情页面进行查看。
卸载 Agent
注意:Agent 卸载后,对应容器集群将会停止采集监控指标数据,并同步清理采集配置、卸载集群中安装的相关组件等。
导航路径:产品服务->容器->Prometheus 监控服务->监控实例->实例列表
- 登录 Prometheus 监控服务控制台,在监控实例列表中,点击监控实例名称,进入监控实例详情页面,选择关联集群,可见当前地域下已关联的 CCE 集群列表。
- 在目标 CCE 集群的操作选项中,点击 【解除关联】,并经过二次确认之后,系统将自动卸载目标 CCE 集群中已部署的采集组件 Agent,以及对应 Helm 包中的其他相关组件。
- 卸载成功后,目标 CCE 集群将被停止采集监控指标数据,并同步清理采集配置。如需重新开始采集对应 CCE 集群,可再次安装Agent。
评价此篇文章
