Linux宿主机及Docker监控

monitor

字数统计: 701阅读时长: 2 min

 2021/05/19  Share

宿主机监控

Interpreting Prometheus metrics for Linux disk I/O utilizatio

Node_exporter IO指标详解

Understanding Machine CPU usage

Node_exporter CPU指标详解，教你看懂CPU适用率是怎么算出来的

Docker CPU Usage

介绍docker stats中的docker原生CPU信息收集的细节。

容器监控

在调研方案中发现，基本都是采用cAdvisor，K8S内部也是采用cAdvisor。选取版本 v0.37.5。

cAdvisor CPU过高

之前使用 cAdvisor 时发现CPU占用率太高，发现遇到此问题的人有很多，相关issue也有人提到，处理的方式是减少收集间隔期、减少收集的指标。

command:
  - '--docker_only'
  - '--housekeeping_interval=10s'
  - '--disable_metrics=disk,udp,referenced_memory,cpu_topology,resctrl,tcp,advtcp,sched,process,hugetlb'

cAdvisor中有Housekeeping的概念，控制指标收集的周期行为。--housekeeping_interval默认情况值为1s，但是并不是每秒都进行采集。因为--allow_dynamic_housekeeping默认为true，动态的间隔时长依赖于容器的活动情况进行收集，此项设为 false 则会增加资源开销，因此不做变动。在动态收集的前提下，试验下来：设置为1s，1分钟收集12次左右；设置为5s后，1分钟采集大概7或8次；设置为10s，1分钟收集4次左右。

设置--docker_only：会只收集docker容器的状态，像id="/system.slice"等指标都不会再收集。

设置disable_metrics：考虑到我们实际场景，在默认列表的基础上加上了disk。磁盘IO相关的指标还剩下container_fs_reads_bytes_total、container_fs_reads_total、container_fs_writes_bytes_total、container_fs_writes_total。

设置以上三个条件后，在我们的双机空置服务上跑监控大概会降低5%的CPU消耗。