云原生监控体系构建：指标与日志数据获取及核心监控指标解析

作者：da吃一鲸8862025.09.26 21:52浏览量：0

简介：本文深入解析云原生监控中指标数据与日志数据的获取方法，并梳理云监控的核心指标体系，为运维人员提供可落地的技术方案。

一、云原生监控的数据获取体系

云原生环境下的监控数据获取需兼顾实时性、可扩展性和多维度分析能力，其核心架构由指标数据、日志数据和追踪数据构成，其中指标与日志是故障诊断和性能优化的基础。

1.1 指标数据获取技术

指标数据是反映系统健康状态的核心数字信号，在云原生环境中主要通过以下方式获取：

1.1.1 容器指标采集

Kubernetes环境下的容器指标采集依赖cAdvisor（Container Advisor），该组件内置于Kubelet中，默认采集每容器粒度的CPU、内存、网络和磁盘I/O指标。例如通过Prometheus的Kubelet Scrape配置可获取容器内存使用率：

scrape_configs:
  - job_name: 'kubernetes-nodes'
    kubernetes_sd_configs:
      - role: node
    relabel_configs:
      - source_labels: [__address__]
        target_label: __metrics_path__
        replacement: '/metrics/cadvisor'

实际采集的内存指标包含container_memory_working_set_bytes（工作集内存）和container_memory_rss（常驻内存），需结合container_spec_memory_limit_bytes计算使用率。

1.1.2 服务网格指标

Istio等Service Mesh组件通过Envoy代理采集服务间通信指标，包括请求成功率、延迟分布（P50/P90/P99）和流量分布。例如通过Prometheus查询服务A到B的P99延迟：

histogram_quantile(0.99, 
  sum(rate(istio_request_duration_seconds_bucket{
    destination_service="service-b",
    reporter="source"
  }[1m])) by (le))

1.1.3 自定义指标扩展

应用可通过Prometheus Client Library暴露自定义指标，例如Go应用采集HTTP请求处理时间：

import "github.com/prometheus/client_golang/prometheus"
var httpRequestDuration = prometheus.NewHistogramVec(prometheus.HistogramOpts{
    Name:    "http_request_duration_seconds",
    Buckets: []float64{.005, .01, .025, .05, .1, .25, .5, 1, 2.5, 5, 10},
}, []string{"path", "method"})
func init() {
    prometheus.MustRegister(httpRequestDuration)
}
func handler(w http.ResponseWriter, r *http.Request) {
    defer func(begin time.Time) {
        path := r.URL.Path
        method := r.Method
        duration := time.Since(begin)
        httpRequestDuration.WithLabelValues(path, method).Observe(duration.Seconds())
    }(time.Now())
    // 业务逻辑
}

1.2 日志数据获取方案

日志数据包含结构化日志和自由文本日志，在云原生环境中需解决集中收集、解析和存储问题。

1.2.1 容器日志收集

Kubernetes默认通过节点上的kubelet将容器日志写入/var/log/containers/目录，推荐使用Fluentd/Fluent Bit作为Agent进行收集。例如Fluent Bit配置：

[SERVICE]
    Flush     1
    Log_Level info
[INPUT]
    Name tail
    Path /var/log/containers/*.log
    Parser docker
    Tag kube.*
    Mem_Buf_Limit 5MB
[FILTER]
    Name kubernetes
    Match kube.*
    Kube_URL https://kubernetes.default:443
    Kube_CA_File /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
    Kube_Token_File /var/run/secrets/kubernetes.io/serviceaccount/token
[OUTPUT]
    Name es
    Match *
    Host elasticsearch
    Port 9200
    Index kube_${TAG[0]}

1.2.2 日志解析与结构化

通过Grok或JSON解析器提取关键字段，例如解析Nginx访问日志：

[PARSER]
    Name nginx
    Format regex
    Regex ^(?<remote_addr>[^ ]+) [^ ]+ [^ ]+ \[(?<time_local>[^\]]+)\] "(?<request>[^ ]+) [^ ]+ [^ ]+" (?<status>[^ ]+) (?<body_bytes_sent>[^ ]+) "(?<http_referer>[^"]*)" "(?<http_user_agent>[^"]*)"

结构化后的日志可支持更精确的查询，例如统计500错误来源：

{
  "query": {
    "bool": {
      "must": [
        { "term": { "status": "500" }},
        { "exists": { "field": "http_user_agent" }}
      ]
    }
  }
}

二、云监控核心指标体系

云原生监控需建立覆盖基础设施、平台层和应用层的三级指标体系，以下为关键指标分类及阈值建议。

2.1 基础设施层指标

指标类别	关键指标	告警阈值
节点资源	节点CPU使用率	持续10分钟>85%
	节点内存使用率	持续10分钟>90%
	节点磁盘剩余空间	<15%
网络性能	节点出/入带宽	持续5分钟>80%线路带宽
	跨节点网络延迟	P99>1ms（同可用区）

2.2 平台层指标

2.2.1 Kubernetes组件

API Server：请求延迟（P99<500ms）、队列等待数（<100）
Etcd：存储空间使用率（<80%）、Leader选举次数（每小时<3次）
Scheduler：调度失败率（<0.1%）、调度延迟（P99<1s）

2.2.2 服务网格

Envoy代理：连接数（<5000/实例）、CPU使用率（<70%）
Mixer：适配器处理延迟（P99<200ms）

2.3 应用层指标

2.3.1 业务指标

订单处理成功率（>99.9%）
支付接口响应时间（P99<800ms）
用户会话超时率（<0.5%）

2.3.2 中间件指标

Redis：命中率（>95%）、连接数（<80% maxclients）
MySQL：慢查询数（每小时<10）、InnoDB缓冲池命中率（>99%）

三、实施建议与最佳实践

指标采集频率优化：基础设施指标建议10-30秒采集间隔，业务指标可放宽至1分钟
日志存储分层：热数据存ES（7-30天），冷数据转存S3/OSS（1-3年）
告警收敛策略：对同一资源的重复告警采用指数退避算法，首次告警后5分钟内相同告警合并
可视化看板设计：遵循”3秒原则”，关键指标需在3秒内从仪表盘获取
混沌工程验证：定期注入节点故障、网络延迟等异常，验证监控系统有效性

例如某金融客户通过实施上述方案，将平均故障发现时间（MTTD）从47分钟缩短至8分钟，告警准确率从62%提升至89%。关键改进点包括：

增加Pod就绪检查指标的采集
优化日志解析规则减少误报
建立基于SLO的告警分级体系

云原生监控体系的构建需要持续迭代，建议每季度进行指标覆盖度评估，每年开展监控能力成熟度审计。随着eBPF等新技术的成熟，未来将实现更细粒度的无侵入监控，但当前仍需以指标+日志+追踪的三元组为核心监控手段。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

云原生监控体系构建：指标与日志数据获取及核心监控指标解析

一、云原生监控的数据获取体系

1.1 指标数据获取技术

1.1.1 容器指标采集

1.1.2 服务网格指标

1.1.3 自定义指标扩展

1.2 日志数据获取方案

1.2.1 容器日志收集

1.2.2 日志解析与结构化

二、云监控核心指标体系

2.1 基础设施层指标

2.2 平台层指标

2.2.1 Kubernetes组件

2.2.2 服务网格

2.3 应用层指标

2.3.1 业务指标

2.3.2 中间件指标

三、实施建议与最佳实践

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者