云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

作者：热心市民鹿先生2025.09.26 21:52浏览量：1

简介：本文为云原生初学者提供Prometheus与Alertmanager的完整部署指南，涵盖监控指标配置、告警规则设计及可视化实现，助力快速构建生产级监控体系。

一、云原生监控体系架构解析

在容器化与微服务架构下，传统监控方案已难以满足动态资源管理需求。云原生监控的核心在于构建实时性、可扩展性、上下文感知的监控体系，其典型架构包含三个层次：

数据采集层：通过Node Exporter、cAdvisor等组件采集主机和容器指标
时序数据库层：Prometheus以拉取模式存储高维度时序数据，支持多维度查询
告警与可视化层：Alertmanager处理告警路由，Grafana提供可视化看板

相较于Zabbix等传统方案，Prometheus的优势体现在：

服务发现机制自动适配K8s动态环境
PromQL查询语言支持复杂聚合计算
联邦架构支持百万级时间序列存储
Alertmanager提供灵活的告警分组、抑制机制

二、Prometheus监控环境搭建

2.1 基础组件部署

以Kubernetes环境为例，推荐使用Prometheus Operator简化部署：

# prometheus-operator.yaml 核心配置示例
apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
  name: prometheus-k8s
spec:
  serviceAccountName: prometheus-k8s
  serviceMonitorSelector: {}
  resources:
    requests:
      memory: 400Mi
  storage:
    volumeClaimTemplate:
      spec:
        storageClassName: gp2
        resources:
          requests:
            storage: 50Gi

关键配置参数说明：

storageClassName：根据云平台选择存储类型（AWS EBS/Azure Disk等）
retention：默认15天数据保留周期
scrapeInterval：建议15-30秒采集间隔

2.2 指标采集配置

Node Exporter需配置特权模式以获取系统级指标：

# node-exporter-daemonset.yaml 关键配置
containers:
- name: node-exporter
  image: quay.io/prometheus/node-exporter:latest
  securityContext:
    privileged: true
  volumeMounts:
  - name: proc
    mountPath: /host/proc
  - name: sys
    mountPath: /host/sys

需暴露的metrics路径包含：

/metrics：基础节点指标
/metrics/cpu：细化CPU指标
/metrics/memory：内存分页统计

三、CPU与内存监控实现

3.1 核心指标定义

指标名称	PromQL表达式	告警阈值建议
CPU使用率	100 - (avg(irate(node_cpu_seconds_total{mode=”idle”}[5m])) by (instance) * 100)	>85%持续5分钟
内存可用率	(node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100	<20%持续3分钟
交换内存使用率	(node_memory_SwapUsed_bytes / node_memory_SwapTotal_bytes) * 100	>30%立即告警

3.2 高级监控场景

容器级监控：通过cAdvisor采集容器指标

sum(rate(container_cpu_usage_seconds_total{container!="",pod!=""}[1m])) by (pod)

进程级监控：使用process-exporter采集特定进程指标
NUMA节点监控：通过node_exporter的--collector.numa参数启用

四、Alertmanager告警配置

4.1 告警规则设计

在prometheus-rules.yaml中定义规则：

groups:
- name: cpu-memory-alerts
  rules:
  - alert: HighCPUUsage
    expr: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100) > 85
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "High CPU usage on {{ $labels.instance }}"
      description: "CPU usage is {{ $value }}% on instance {{ $labels.instance }}"

关键参数说明：

for：告警持续触发时间
severity：告警分级（warning/critical）
annotations：告警描述模板

4.2 告警路由配置

Alertmanager配置示例：

route:
  receiver: team-a-pager
  group_by: ['alertname', 'cluster']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 1h
  routes:
  - match:
      severity: critical
    receiver: team-a-pager
    continue: true
  - match:
      severity: warning
    receiver: team-a-email
receivers:
- name: team-a-pager
  webhook_configs:
  - url: 'https://alertmanager-webhook/pager'
- name: team-a-email
  email_configs:
  - to: 'team-a@example.com'

五、生产环境优化实践

5.1 性能调优建议

存储优化：
- 使用TSDB块存储格式
- 配置--storage.tsdb.retention.time=30d
- 启用WAL压缩（--storage.tsdb.wal-compression）
查询优化：
- 限制查询时间范围（&[1h]参数）
- 避免高基数标签查询
- 使用recording rules预计算常用指标

5.2 高可用方案

联邦架构：
```yaml
prometheus-federation.yaml

job_name: ‘federate’
scrape_interval: 15s
honor_labels: true
metrics_path: ‘/federate’
params:
‘match[]’:
```
- '{job="prometheus"}'
- 'UP{job="kubernetes-service-endpoints"}'
```
static_configs:
- targets:
  - ‘prometheus-k8s-0:9090’
  - ‘prometheus-k8s-1:9090’
```

Thanos集成：实现全局视图和长期存储

5.3 安全加固

基本认证配置：

# prometheus-configmap.yaml
basic_auth_users:
admin: $2a$10$... # bcrypt哈希值

网络策略限制：
```yaml
prometheus-networkpolicy.yaml
podSelector:
matchLabels:
app: prometheus
ingress:

from:
- namespaceSelector:
  matchLabels:
```
monitoring: enabled
```
  ports:
- protocol: TCP
  port: 9090
```

六、故障排查指南

6.1 常见问题处理

数据采集失败：
- 检查node_exporter日志：kubectl logs -f <pod-name>
- 验证ServiceMonitor配置：kubectl get servicemonitor -n monitoring
告警未触发：
- 检查Alertmanager状态：curl http://alertmanager:9093/api/v1/alerts
- 验证Prometheus规则：http://prometheus:9090/rules

性能瓶颈：

使用Prometheus自监控指标：

rate(prometheus_tsdb_head_samples_appended_total[5m])

6.2 日志分析技巧

启用Prometheus调试日志：
```yaml
prometheus-configmap.yaml
command:

/bin/prometheus
—log.level=debug
```

Alertmanager日志关键字段：
- msg="Received alert"：告警接收
- msg="Send alert"：告警发送
- msg="Group loaded"：告警分组状态

七、进阶监控方案

7.1 动态服务发现

Kubernetes ServiceMonitor示例：

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: example-app
spec:
  selector:
    matchLabels:
      app: example
  endpoints:
  - port: web
    interval: 30s
    path: /metrics
  namespaceSelector:
    matchNames:
    - default

7.2 多租户监控

通过--web.route-prefix和--web.external-url实现：

# prometheus-spec.yaml
extraArgs:
  - --web.route-prefix=/tenant-a
  - --web.external-url=http://prometheus.example.com/tenant-a

7.3 混合云监控

使用Thanos Sidecar实现跨集群数据聚合：

# thanos-sidecar.yaml
containers:
- name: thanos-sidecar
  image: quay.io/thanos/thanos:v0.30.2
  args:
  - "sidecar"
  - "--prometheus.url=http://localhost:9090"
  - "--objstore.config-file=/etc/thanos/objstore.yml"

通过以上系统化的配置与实践，开发者可快速构建满足生产环境需求的云原生监控体系。建议从基础监控开始，逐步扩展至多维度、跨集群的复杂监控场景，最终实现全栈可观测性。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

云原生监控实战：Prometheus+Alertmanager实现CPU与内存告警

一、云原生监控体系架构解析

二、Prometheus监控环境搭建

2.1 基础组件部署

2.2 指标采集配置

三、CPU与内存监控实现

3.1 核心指标定义

3.2 高级监控场景

四、Alertmanager告警配置

4.1 告警规则设计

4.2 告警路由配置

五、生产环境优化实践

5.1 性能调优建议

5.2 高可用方案

prometheus-federation.yaml

5.3 安全加固

prometheus-networkpolicy.yaml

六、故障排查指南

6.1 常见问题处理

6.2 日志分析技巧

prometheus-configmap.yaml

七、进阶监控方案

7.1 动态服务发现

7.2 多租户监控

7.3 混合云监控

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者