从零掌握K8s可观测性：监控与日志实战指南

作者：沙与沫2025.09.26 21:57浏览量：19

简介：本文面向K8s初学者，系统讲解可观测性核心概念，重点解析监控与日志的实现方案，通过Prometheus+Grafana+EFK实战案例，帮助读者快速构建K8s集群的可观测体系。

一、K8s可观测性：为什么必须掌握？

在K8s集群中，容器化应用的动态特性（如自动扩缩容、节点迁移）使得传统监控方式失效。可观测性通过监控（Metrics）、日志（Logging）、追踪（Tracing）三大支柱，帮助运维人员实时掌握集群健康状态。

1.1 监控的核心价值

实时告警：通过CPU、内存、网络等指标，提前发现资源瓶颈
性能分析：识别Pod启动延迟、服务响应时间等性能问题
容量规划：基于历史数据预测资源需求，避免资源浪费

1.2 日志的关键作用

故障定位：通过容器日志快速定位应用错误
审计追踪：记录用户操作和系统变更
业务分析：提取业务关键指标（如订单量、用户行为）

二、K8s监控体系搭建：Prometheus+Grafana实战

2.1 Prometheus架构解析

Prometheus采用拉取（Pull）模式，通过HTTP端点定期收集指标数据。核心组件包括：

Prometheus Server：存储和查询时序数据
Exporters：将非Prometheus格式的指标转换为标准格式
Alertmanager：处理告警规则并发送通知

2.2 部署Prometheus Operator

通过Helm快速部署：

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm install prometheus prometheus-community/kube-prometheus-stack

此命令会同时部署：

Prometheus Server
Grafana可视化面板
Node Exporter（节点指标）
kube-state-metrics（K8s资源指标）

2.3 关键监控指标配置

在prometheus-operator的Custom Resource中定义监控规则：

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: example-rules
spec:
  groups:
  - name: k8s.rules
    rules:
    - alert: HighCPUUsage
      expr: sum(rate(container_cpu_usage_seconds_total{container!="POD",pod!=""}[5m])) by (pod) > 0.8
      for: 10m
      labels:
        severity: warning
      annotations:
        summary: "High CPU usage on {{ $labels.pod }}"

2.4 Grafana仪表盘定制

推荐必备仪表盘：

K8s Cluster Overview：集群整体状态
Node Exporter Full：节点级资源监控
K8s Pods Overview：Pod级性能指标

三、K8s日志管理：EFK栈深度解析

3.1 EFK架构组成

Elasticsearch：分布式搜索和分析引擎
Fluentd：日志收集和转发代理
Kibana：日志可视化界面

3.2 Fluentd配置实战

创建DaemonSet确保每个节点运行Fluentd：

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: fluentd
spec:
  template:
    spec:
      containers:
      - name: fluentd
        image: fluent/fluentd-kubernetes-daemonset:v1-debian-elasticsearch
        env:
        - name: FLUENT_ELASTICSEARCH_HOST
          value: "elasticsearch.logging.svc.cluster.local"
        - name: FLUENT_ELASTICSEARCH_PORT
          value: "9200"
        volumeMounts:
        - name: varlog
          mountPath: /var/log
        - name: varlibdockercontainers
          mountPath: /var/lib/docker/containers
          readOnly: true
      volumes:
      - name: varlog
        hostPath:
          path: /var/log
      - name: varlibdockercontainers
        hostPath:
          path: /var/lib/docker/containers

3.3 日志解析最佳实践

3.3.1 多行日志处理

应用日志常包含堆栈跟踪，需配置多行过滤器：

<filter kubernetes.**>
  @type parser
  key_name log
  reserve_data true
  <parse>
    @type multiline
    format_firstline /^\d{4}-\d{2}-\d{2}/
    format1 /^(?<time>\d{4}-\d{2}-\d{2}) \d{2}:\d{2}:\d{2}\.\d{3} (?<level>\w+) (?<thread>[\w-]+) (?<class>[\w.]+) - (?<message>.*)/
  </parse>
</filter>

3.3.2 日志上下文增强

添加K8s元数据（Pod名、Namespace等）：

<filter kubernetes.**>
  @type kubernetes_metadata
</filter>

3.4 Kibana使用技巧

3.4.1 索引模式配置

创建fluentd-*索引模式，设置时间字段为@timestamp

3.4.2 常用查询示例

查找ERROR级别日志：

{
  "query": {
    "bool": {
      "must": [
        { "match": { "log": "ERROR" } }
      ]
    }
  }
}

按Pod名称过滤：

{
  "query": {
    "bool": {
      "must": [
        { "term": { "kubernetes.pod_name": "order-service-7f8b9d6c4-2hq9l" } }
      ]
    }
  }
}

四、进阶实践：自定义指标监控

4.1 自定义Exporter开发

以监控Redis为例：

package main
import (
    "net/http"
    "github.com/prometheus/client_golang/prometheus"
    "github.com/prometheus/client_golang/prometheus/promhttp"
)
var (
    redisMemoryUsage = prometheus.NewGauge(prometheus.GaugeOpts{
        Name: "redis_memory_used_bytes",
        Help: "Current memory usage in bytes",
    })
)
func init() {
    prometheus.MustRegister(redisMemoryUsage)
}
func main() {
    // 这里添加获取Redis内存的逻辑
    redisMemoryUsage.Set(1024 * 1024 * 50) // 示例值50MB
    http.Handle("/metrics", promhttp.Handler())
    http.ListenAndServe(":8080", nil)
}

4.2 HPA基于自定义指标扩缩容

安装Metrics API：

kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml

创建HPA规则：

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
name: redis-hpa
spec:
scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: redis
minReplicas: 1
maxReplicas: 10
metrics:
- type: External
 external:
   metric:
     name: redis_memory_used_bytes
     selector:
       matchLabels:
         app: redis
   target:
     type: AverageValue
     averageValue: 80M

五、常见问题解决方案

5.1 监控数据丢失问题

原因：Prometheus默认只保留15天数据
解决方案：
- 配置持久化存储：
```
persistence:
  enabled: true
  storageClass: "standard"
  size: "50Gi"
```
- 使用Thanos或Cortex进行长期存储

5.2 日志索引性能优化

问题现象：Kibana查询缓慢

优化方案：

调整Elasticsearch分片数（建议每个索引5-10个主分片）

启用ILM（Index Lifecycle Management）自动滚动索引：

PUT _ilm/policy/logs_policy
{
  "policy": {
    "phases": {
      "hot": {
        "min_age": "0ms",
        "actions": {
          "rollover": {
            "max_size": "50gb",
            "max_age": "30d"
          }
        }
      },
      "delete": {
        "min_age": "90d",
        "actions": {
          "delete": {}
        }
      }
    }
  }
}

六、总结与建议

监控实施路径：
- 基础阶段：Node Exporter + kube-state-metrics
- 进阶阶段：自定义Exporter + 业务指标监控
- 专家阶段：预测性监控 + AIOps
日志管理建议：
- 遵循”3W”原则：What（内容）、Where（存储）、When（保留期）
- 重要业务日志建议保留180天以上
- 定期审查日志模式，避免过度收集
工具选型参考：
| 场景 | 推荐方案 |
|———|—————|
| 中小集群 | Prometheus + Grafana + Loki |
| 大型集群 | Thanos + Grafana + EFK |
| 云原生环境 | 托管服务（如AWS Managed Prometheus） |

通过系统化的可观测性建设，团队可将K8s运维效率提升60%以上，故障定位时间从小时级缩短至分钟级。建议初学者从Prometheus+Grafana基础监控入手，逐步扩展到日志和追踪领域，最终形成完整的可观测体系。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询