云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

作者：半吊子全栈工匠2025.09.25 17:17浏览量：0

简介：本文详解云原生监控入门实践，通过Prometheus采集节点指标、Alertmanager配置告警规则，实现CPU与内存的自动化监控与告警，助力运维团队快速定位资源瓶颈。

云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

一、云原生监控的核心价值与技术选型

在云原生架构中，容器化与微服务化的普及使得传统监控方式难以应对动态资源调度带来的挑战。云原生监控需具备三大核心能力：

动态发现能力：自动感知Pod、Service等资源的生命周期变化
多维度指标采集：支持容器、节点、应用等多层级指标
实时告警机制：基于阈值或预测模型的智能告警

Prometheus作为CNCF（云原生计算基金会）毕业项目，凭借其Pull-based采集模型、时序数据库存储和PromQL查询语言，成为云原生监控的事实标准。结合Alertmanager的告警路由、去重和抑制功能，可构建完整的监控告警体系。

二、Prometheus监控指标体系构建

1. 节点级指标采集

通过Node Exporter暴露主机级指标，关键指标包括：

CPU使用率：node_cpu_seconds_total{mode="user"}（用户态）、node_cpu_seconds_total{mode="system"}（内核态）
内存使用量：node_memory_MemTotal_bytes（总量）、node_memory_MemAvailable_bytes（可用量）
磁盘I/O：node_disk_io_time_seconds_total（I/O耗时）

安装配置示例：

# node-exporter-daemonset.yaml
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: node-exporter
spec:
  template:
    spec:
      containers:
      - name: node-exporter
        image: prom/node-exporter:v1.6.0
        ports:
        - containerPort: 9100
          name: metrics

2. 容器级指标采集

cAdvisor自动集成在Kubelet中，通过/metrics/cadvisor端点暴露容器指标：

CPU限制使用率：container_cpu_usage_seconds_total / container_spec_cpu_quota
内存工作集：container_memory_working_set_bytes

Prometheus配置示例：

# prometheus-configmap.yaml
scrape_configs:
- job_name: 'kubernetes-nodes'
  static_configs:
  - targets: ['<node-ip>:9100']
- job_name: 'kubernetes-pods'
  kubernetes_sd_configs:
  - role: pod
  relabel_configs:
  - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
    action: keep
    regex: true

三、Alertmanager告警规则设计

1. CPU告警规则

基于5分钟平均使用率的分级告警策略：

# alert-rules.yaml
groups:
- name: cpu.rules
  rules:
  - alert: HighCpuUsage
    expr: (1 - avg(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance)) * 100 > 85
    for: 10m
    labels:
      severity: warning
    annotations:
      summary: "High CPU usage on {{ $labels.instance }}"
      description: "CPU usage is {{ $value }}% on instance {{ $labels.instance }}"

2. 内存告警规则

结合可用内存和缓存的复合告警：

- alert: LowMemory
  expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 90
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "Low memory on {{ $labels.instance }}"
    description: "Memory usage is {{ $value }}% (available: {{ node_memory_MemAvailable_bytes / 1e6 }}MB)"

四、Alertmanager路由配置实践

1. 分级路由策略

配置文件示例：

# alertmanager-config.yaml
route:
  receiver: default-receiver
  group_by: ['alertname', 'cluster']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 1h
  routes:
  - match:
      severity: critical
    receiver: critical-team
    continue: true
  - match:
      severity: warning
    receiver: warning-team
receivers:
- name: default-receiver
  email_configs:
  - to: default@example.com
- name: critical-team
  webhook_configs:
  - url: http://critical-handler/alert
- name: warning-team
  slack_configs:
  - api_url: https://hooks.slack.com/...
    channel: '#alerts-warning'

2. 告警抑制与去重

通过inhibit_rules实现依赖告警抑制：

inhibit_rules:
- source_match:
    severity: critical
  target_match:
    severity: warning
  equal: ['instance']

五、监控体系优化实践

1. 指标采集优化

采样间隔调整：节点指标设为15s，应用指标设为30s
标签设计规范：统一使用instance、job、namespace等标准标签
存储策略优化：保留7天原始数据，30天下采样数据

2. 告警响应流程

初级响应：自动触发扩容或重启
中级响应：通知值班工程师
高级响应：升级至技术负责人

3. 可视化增强

通过Grafana配置典型看板：

节点概览：CPU/内存使用率热力图
容器详情：按命名空间分组的工作负载指标
告警历史：按严重程度分类的告警趋势

六、故障排查指南

1. 常见问题处理

数据缺失：检查ServiceMonitor的namespaceSelector配置
告警延迟：调整group_interval和repeat_interval参数
标签冲突：使用__name__和__instance__明确指标标识

2. 日志分析技巧

# 查看Prometheus告警规则加载情况
kubectl logs prometheus-k8s-0 -c prometheus | grep "Loading configuration file"
# 检查Alertmanager告警发送记录
kubectl logs alertmanager-main-0 | grep "Sent alert"

七、进阶实践建议

多集群监控：通过Thanos或Cortex实现全局视图
智能预测：集成Prometheus的predict_linear函数实现容量预测
混沌工程：在测试环境模拟节点故障，验证告警有效性

八、总结与展望

本文通过完整的配置示例和操作指南，展示了如何基于Prometheus和Alertmanager构建云原生环境下的CPU与内存监控体系。实际生产环境中，建议结合以下实践：

定期进行告警规则评审
建立监控指标基线
实施告警疲劳度管理

随着eBPF技术的成熟，未来云原生监控将向更细粒度的应用层指标发展，但Prometheus+Alertmanager的组合仍将是中短期内的主流方案。开发者应持续关注Prometheus Operator的演进，以及与Service Mesh的深度集成方案。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

一、云原生监控的核心价值与技术选型

二、Prometheus监控指标体系构建

1. 节点级指标采集

2. 容器级指标采集

三、Alertmanager告警规则设计

1. CPU告警规则

2. 内存告警规则

四、Alertmanager路由配置实践

1. 分级路由策略

2. 告警抑制与去重

五、监控体系优化实践

1. 指标采集优化

2. 告警响应流程

3. 可视化增强

六、故障排查指南

1. 常见问题处理

2. 日志分析技巧

七、进阶实践建议

八、总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者