云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

作者：php是最好的2025.09.18 12:20浏览量：7

简介：本文详细介绍了云原生环境下如何使用Prometheus和Alertmanager实现CPU与内存的监控告警，涵盖基础概念、安装配置、规则定义及告警优化等关键步骤。

云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

一、云原生监控的必要性

在云原生架构中，容器化、微服务化与动态编排（如Kubernetes）成为主流，传统监控工具难以应对动态资源的高频变化。Prometheus作为CNCF（云原生计算基金会）毕业项目，凭借其拉取式数据采集、多维数据模型和强大的查询语言PromQL，成为云原生监控的事实标准。结合Alertmanager的告警路由与去重能力，可构建从数据采集到告警触发的完整闭环。

二、Prometheus基础架构解析

1. 核心组件

Prometheus Server：数据采集、存储与查询核心，支持短周期（通常15-30秒）的指标抓取。
Exporters：将非Prometheus原生指标（如Node CPU使用率）转换为Prometheus格式。例如node_exporter用于主机级监控。
Pushgateway：适用于短生命周期任务（如CronJob）的指标推送。

2. 数据模型

Prometheus采用<metric_name>{<label_name>=<label_value>, ...}格式，例如：

node_cpu_seconds_total{cpu="0",mode="user"} 12345.67

通过标签（Labels）实现多维查询，如按节点或CPU核心筛选数据。

三、安装与配置实战

1. 部署Prometheus与Node Exporter

步骤1：下载并运行Node Exporter

wget https://github.com/prometheus/node_exporter/releases/download/v*/node_exporter-*.*-amd64.tar.gz
tar xvfz node_exporter-*.*-amd64.tar.gz
cd node_exporter-*.*-amd64
./node_exporter

默认监听9100端口，提供主机CPU、内存、磁盘等指标。

步骤2：配置Prometheus抓取Node Exporter
编辑prometheus.yml：

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['<node_exporter_ip>:9100']

启动Prometheus：

prometheus --config.file=prometheus.yml

2. 配置Alertmanager

步骤1：下载Alertmanager

wget https://github.com/prometheus/alertmanager/releases/download/v*/alertmanager-*.*-amd64.tar.gz
tar xvfz alertmanager-*.*-amd64.tar.gz
cd alertmanager-*.*-amd64

步骤2：配置告警路由
编辑alertmanager.yml，定义接收器与路由规则：

route:
  receiver: 'email'
  group_by: ['alertname']
receivers:
  - name: 'email'
    email_configs:
      - to: 'admin@example.com'
        from: 'alert@example.com'
        smarthost: smtp.example.com:587
        auth_username: 'user'
        auth_password: 'pass'

启动Alertmanager：

./alertmanager --config.file=alertmanager.yml

四、定义监控规则与告警

1. 编写Prometheus告警规则

在prometheus.yml中引入规则文件：

rule_files:
  - 'alert.rules.yml'

创建alert.rules.yml，定义CPU与内存告警：

groups:
  - name: cpu-memory-alerts
    rules:
      - alert: HighCPUUsage
        expr: 100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "High CPU usage on {{ $labels.instance }}"
          description: "CPU usage is above 80% (current value: {{ $value }}%)"
      - alert: HighMemoryUsage
        expr: (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100 < 20
        for: 5m
        labels:
          severity: critical
        annotations:
          summary: "Low memory on {{ $labels.instance }}"
          description: "Available memory is below 20% (current value: {{ $value }}%)"

关键参数说明：

expr：使用PromQL定义触发条件，如CPU空闲率低于20%（即使用率>80%）。
for：持续满足条件的时间阈值，避免短暂波动触发告警。
labels：附加标签，用于Alertmanager路由。
annotations：告警详细信息，支持模板变量（如{{ $value }}）。

2. 告警优化技巧

去重与抑制：通过group_by将相同实例的告警合并，避免“告警风暴”。
静默期：在Alertmanager中配置静默规则，例如维护期间暂停特定告警。
分级告警：通过severity标签区分警告（warning）与严重（critical）告警，优先处理高风险事件。

五、验证与调试

1. 手动触发测试

使用curl模拟高CPU负载：

# 启动一个占用CPU的进程
dd if=/dev/zero of=/dev/null &
# 检查Prometheus目标状态
curl http://localhost:9090/api/v1/targets
# 触发告警后，检查Alertmanager UI
curl http://localhost:9093/#/alerts

2. 常见问题排查

指标缺失：检查Node Exporter是否运行，Prometheus配置中的targets是否正确。
告警未触发：验证PromQL表达式是否正确，使用Prometheus UI的“Alerts”页签调试。
邮件未送达：检查Alertmanager日志，确认SMTP配置与防火墙规则。

六、进阶实践

1. 集成Grafana可视化

部署Grafana并配置Prometheus数据源，导入预置的CPU/内存仪表盘（ID：1860、8919），实现实时监控与历史趋势分析。

2. Kubernetes环境适配

在K8s中，通过DaemonSet部署Node Exporter，使用ServiceMonitor（Prometheus Operator）自动发现节点指标，简化配置。

七、总结与建议

通过Prometheus与Alertmanager的组合，可高效实现云原生环境下的CPU与内存监控告警。关键实践建议：

渐进式部署：先在测试环境验证规则，再逐步推广至生产。
容量规划：根据节点数量调整Prometheus的存储保留期（--storage.tsdb.retention.time）。
告警文化：建立明确的告警响应流程，避免过度告警导致团队疲劳。

云原生监控的核心在于自动化与可观测性，Prometheus的生态工具链（如Thanos、Loki）可进一步扩展其能力，建议持续关注CNCF项目更新。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

一、云原生监控的必要性

二、Prometheus基础架构解析

1. 核心组件

2. 数据模型

三、安装与配置实战

1. 部署Prometheus与Node Exporter

2. 配置Alertmanager

四、定义监控规则与告警

1. 编写Prometheus告警规则

2. 告警优化技巧

五、验证与调试

1. 手动触发测试

2. 常见问题排查

六、进阶实践

1. 集成Grafana可视化

2. Kubernetes环境适配

七、总结与建议

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者