CCE Node Problem Detector 实时检测节点上各种异常情况,并将检测结果上报至集群 https://cloud.baidu.com/doc/CCE/s/Qlfq88ert CCE Node Remedier 节点自动维修系统,实现节点故障自愈 https://cloud.baidu.com/doc/CCE/s/blgkja64g CCE Log Operator 采集集群中的日志信息传输至日志服务
日志接口 本接口用于获取某一个域名某一指定时间段内的日志下载地址。 工具接口 本接口包含IP检测,用于验证指定的IP是否属于百度开放云CDN服务节点。 名词解释 domain: 用户加速的域名 cache:domain下缓存的数据对象 origin:CDN的源站
混部监控 名词解释 容器引擎(CCE)支持通过“监控日志 > 混部监控”查看集群混部大盘指标,主要指标包括节省量、实际利用率、驱逐率、压制率、离线可用量以及离线理论可用量。
混部节点监控 名词解释 容器引擎(CCE)支持通过监控日志 > 混部监控查看节点监控指标,主要指标包括资源实际利用率、驱逐率、压制率等。 名称 含义 实际利用率 实际利用率(actual-utilization)=使用量(usage)/分配量(request) 驱逐率 驱逐率=被驱逐的Pod数/总离线Pod数 压制率 压制率=被压制的Pod数/总离线Pod数 操作步骤 已成功 创建集群 。
DaemonSet 简介 DaemonSet保证在每个Node上都运行一个容器副本,常用来部署一些集群的日志、监控或者其他系统管理应用。典型的应用包括: 日志收集,比如fluentd,logstash等 系统监控 查看守护进程列表 进入 产品服务>容器引擎CCE ,选择集群,点击左侧导航栏 工作负载>守护进程 ,进入守护进程页面。
优化多步上传消耗的fd数量; 配置更新,支持三步上传大小,临时文件目录; 日志滚动切割。
集群监控(Cluster)、节点监控(Instance)、代理监控(Interface),各个类型包含的监控指标列表如下: 集群监控(Cluster) 指标英文名称(metric name) 指标中文名称 单位 维度 备注 BinlogUsage 本地Binlog使用量 MB ClusterId DataSpaceUsage 数据空间使用量 MB ClusterId ErrlogUsage 错误日志使用量
登录控制台( 百度智能云登录平台 ),选择“产品服务->MapReduce BMR”,点击“创建集群”,进入集群创建页,并做如下配置: 设置集群名称 设置管理员密码 关闭日志开关(如果打开,需要选择存放日志用的bos目录,bos目录的bucket必须已经存在 选择镜像版本“BMR 2.0(hadoop 3.1)“ (只有BMR2.0 及以上版本的zeppelin方可用) 选择内置模板“zeppelin
查看日志 运行完毕后,支持查看日志。 导出数据 导出运行组件处理后的数据至数据集。 查看评估报告 模型评估类组件运行完毕后,点击可查看可视化评估报告。 查看分析报告 统计分析类组件运行完毕后,点击可查看可视化分析报告。 查看python绘制图形 自定义组件可通过Python代码实现绘图,点击后可查看所绘制的图形。 资源监控 可查看组件粒度的资源使用情况。
该值高于 10%,则说明可能该节点的 CPU 资源可能被抢占严重 表二 Leader Node 独有监控指标 指标项 指标说明 当前连接数 显示当前通过 Mysql 端口连接到 Leader Node 的连接数 当前元数据日志id 显示当前 Leader Node 元数据同步的最新日志id。