从零掌握K8s可观测性：监控与日志实战指南

作者：JC2025.09.18 12:20浏览量：0

简介：本文面向K8s初学者，系统讲解可观测性三大支柱中的监控与日志技术，包含核心组件原理、部署实践及故障排查技巧，助力读者构建高效运维体系。

一、K8s可观测性体系概述

可观测性是容器化环境运维的核心能力，由监控（Metrics）、日志（Logging）、追踪（Tracing）三大支柱构成。对于K8s初学者而言，监控与日志是建立系统认知的基础切入点。

1.1 监控体系架构

K8s监控采用分层设计：

节点层：通过Node Exporter采集主机级指标（CPU/内存/磁盘）
容器层：cAdvisor内嵌于kubelet，实时获取容器资源使用数据
集群层：API Server、etcd等核心组件暴露Prometheus格式指标
应用层：自定义Exporter暴露业务指标（如数据库QPS）

典型监控链路：Exporter采集→Prometheus存储→Grafana可视化。以Node Exporter为例，其默认监听9100端口，通过/metrics端点输出节点指标：

# 节点指标示例
node_cpu_seconds_total{cpu="0",mode="system"} 1234.56
node_memory_MemAvailable_bytes 8.592e+09

1.2 日志收集范式

K8s日志分为两类：

标准输出：容器内进程的stdout/stderr，由kubelet聚合到节点
文件日志：应用写入文件的日志，需通过Sidecar或DaemonSet模式收集

日志处理关键组件：

Fluentd：作为Agent收集节点日志
Loki：轻量级日志存储系统，支持标签过滤
EFK栈：Elasticsearch+Fluentd+Kibana传统方案

二、监控系统部署实践

2.1 Prometheus核心配置

通过Prometheus Operator简化部署：

# prometheus-operator安装示例
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm install prometheus prometheus-community/kube-prometheus-stack

关键配置项解析：

scrape_configs：定义监控目标

scrape_configs:
- job_name: 'kubernetes-nodes'
  static_configs:
    - targets: ['192.168.1.100:9100']  # Node Exporter地址

storage.tsdb.retention：设置数据保留周期（默认15d）
alertmanager：配置告警路由规则

2.2 监控面板设计原则

Grafana仪表盘应遵循3W原则：

What：显示核心指标（CPU使用率>80%触发告警）
When：展示时间序列变化（近1小时趋势）
Why：关联上下文信息（结合Pod重启次数分析）

推荐监控面板组合：

集群概览：节点状态、Pod数量、API延迟
工作负载：Deployment资源使用率、错误率
自定义应用：通过Prometheus Annotation暴露指标

三、日志系统优化方案

3.1 日志收集架构选择

方案	优势	适用场景
Sidecar	隔离性强	多容器Pod日志隔离
DaemonSet	资源利用率高	统一节点日志收集
HostPath	无需修改应用	遗留系统日志采集

以Fluentd DaemonSet为例的核心配置：

<source>
  @type tail
  path /var/log/containers/*.log
  pos_file /var/log/fluentd-containers.log.pos
  tag kubernetes.*
  format json
  time_key time
  time_format %Y-%m-%dT%H:%M:%S.%NZ
</source>
<match **>
  @type loki
  url "http://loki:3100"
  extra_labels {"env":"prod"}
</match>

3.2 日志查询效率提升技巧

标签设计：按namespace、pod_name、severity分层
索引优化：在Loki中配置object_store和chunk_target_size
查询语法：使用{namespace="default"} |= "error"进行过滤
告警集成：通过Promtail配置日志告警规则

四、故障排查实战案例

4.1 Pod频繁重启分析

监控定位：
- 在Grafana中查看kube_pod_container_status_restarts_total指标
- 关联kube_pod_status_phase确认Pod状态

日志溯源：

查询最近重启时间点的容器日志：
```
kubectl logs -p <pod-name> --previous
```
检查kubelet日志：
```
journalctl -u kubelet -n 100 --no-pager
```

常见原因：
- OOMKilled（检查memory.limit_in_bytes）
- 配置错误（查看kubectl describe pod事件）
- 镜像拉取失败（检查ImagePullBackOff事件）

4.2 监控数据丢失处理

数据持久化：

为Prometheus配置PVC存储：

persistence:
enabled: true
storageClass: "standard"
size: "50Gi"

远程存储集成：

配置Thanos或Cortex实现长期存储

示例Thanos配置：

thanos:
objectStorageConfig:
  key: thanos-objstore.yaml
  name: thanos-objstore-config

数据恢复流程：
- 从备份恢复TSDB数据
- 使用promtool校验数据完整性
- 重新加载Prometheus配置

五、进阶优化建议

监控指标精简：
- 使用recording rules预计算常用聚合指标
- 示例规则：
```yaml
groups:
- name: cpu-usage
  rules:
  - record: jobrate5m
    expr: rate(node_cpu_seconds_total{mode=”user”}[5m]) * 100
```
日志分级存储：
- 热数据存储在Loki（近7天）
- 冷数据归档到S3（通过Fluentd输出插件）
告警降噪策略：
- 设置告警抑制规则（如节点故障时抑制相关Pod告警）
- 实现告警回调（通过Webhook集成钉钉/企业微信）
多集群监控：
- 使用Prometheus Federation实现跨集群指标聚合
- 配置Thanos Query实现全局视图

六、学习资源推荐

官方文档：
- Prometheus官方手册
- K8s日志架构设计
实践工具：
- Minikube：本地K8s测试环境
- K9s：终端UI管理工具
- Lens：可视化监控平台
进阶课程：
- CNCF官方培训：K8s管理与运维
- Udemy《Kubernetes Monitoring with Prometheus》

通过系统掌握监控与日志技术，开发者能够构建起完整的K8s可观测性体系。建议从Prometheus+Grafana基础监控入手，逐步扩展到日志收集和分布式追踪领域，最终形成覆盖全栈的运维能力。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

从零掌握K8s可观测性：监控与日志实战指南

一、K8s可观测性体系概述

1.1 监控体系架构

1.2 日志收集范式

二、监控系统部署实践

2.1 Prometheus核心配置

2.2 监控面板设计原则

三、日志系统优化方案

3.1 日志收集架构选择

3.2 日志查询效率提升技巧

四、故障排查实战案例

4.1 Pod频繁重启分析

4.2 监控数据丢失处理

五、进阶优化建议

六、学习资源推荐

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者