从零开始K8s可观测性：监控与日志全解析

作者：4042025.09.26 21:52浏览量：0

简介：本文面向K8s初学者，系统讲解监控与日志两大可观测性核心模块，涵盖Prometheus、Grafana、EFK等工具的部署与实战，助力构建高效运维体系。

一、K8s可观测性：为什么重要？

K8s（Kubernetes）作为容器编排领域的标准，其动态调度、弹性伸缩的特性带来了运维复杂度的指数级增长。可观测性（Observability）通过监控（Monitoring）、日志（Logging）、追踪（Tracing）三大支柱，帮助开发者快速定位问题、优化资源分配并保障系统稳定性。对于初学者而言，掌握监控与日志是理解K8s运行机制的关键入口。

1.1 监控的核心价值

实时状态感知：通过指标（Metrics）实时反映集群、节点、Pod的资源使用情况（CPU、内存、网络等）。
异常预警：基于阈值或智能算法预测潜在故障（如Pod频繁重启、节点负载过高）。
容量规划：通过历史数据预测资源需求，避免资源浪费或不足。

1.2 日志的核心价值

问题定位：记录应用运行时的详细日志，辅助排查错误（如500错误、数据库连接失败）。
审计追踪：记录用户操作、API调用等安全相关事件。
业务分析：通过日志聚合分析用户行为、业务指标（如订单量、响应时间）。

二、K8s监控体系：从Metrics到可视化

2.1 Metrics采集：cAdvisor与Metrics Server

K8s默认通过cAdvisor（集成在Kubelet中）采集节点和容器的资源指标（CPU、内存、磁盘、网络），但这些指标仅保留短期数据。需部署Metrics Server实现集群级指标聚合：

# Metrics Server部署示例（需替换镜像版本）
apiVersion: apps/v1
kind: Deployment
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  selector:
    matchLabels:
      k8s-app: metrics-server
  template:
    metadata:
      labels:
        k8s-app: metrics-server
    spec:
      containers:
      - name: metrics-server
        image: k8s.gcr.io/metrics-server/metrics-server:v0.6.2
        command:
        - /metrics-server
        - --kubelet-insecure-tls
        - --kubelet-preferred-address-types=InternalIP

关键配置：

--kubelet-insecure-tls：跳过Kubelet证书验证（测试环境使用，生产环境需配置合法证书）。
--kubelet-preferred-address-types：优先使用节点InternalIP通信。

验证指标采集：

kubectl top nodes  # 查看节点资源使用
kubectl top pods --all-namespaces  # 查看Pod资源使用

2.2 长期存储与查询：Prometheus

Metrics Server仅提供短期指标，需部署Prometheus实现长期存储与高级查询：

# Prometheus部署示例（使用Prometheus Operator简化管理）
apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
  name: prometheus
spec:
  serviceAccountName: prometheus
  resources:
    requests:
      memory: 400Mi
  storage:
    volumeClaimTemplate:
      spec:
        storageClassName: standard
        resources:
          requests:
            storage: 10Gi
  scrapeConfigs:
  - job_name: 'kubernetes-nodes'
    static_configs:
    - targets:
      - '10.0.0.1:9100'  # Node Exporter地址

核心组件：

Prometheus Server：时序数据库，存储指标数据。
Exporters：将非Prometheus格式的指标转换为Prometheus格式（如Node Exporter采集节点指标）。
Alertmanager：基于PromQL规则触发告警（如CPU使用率>80%持续5分钟）。

2.3 可视化：Grafana

Grafana通过预置Dashboard展示Prometheus数据：

# Grafana部署示例
apiVersion: apps/v1
kind: Deployment
metadata:
  name: grafana
spec:
  template:
    spec:
      containers:
      - name: grafana
        image: grafana/grafana:9.5.6
        env:
        - name: GF_SECURITY_ADMIN_USER
          value: "admin"
        - name: GF_SECURITY_ADMIN_PASSWORD
          value: "password"

推荐Dashboard：

K8s集群概览：展示节点、Pod、Deployment状态。
Node Exporter全量指标：监控节点级资源。
自定义应用Dashboard：通过PromQL查询应用特定指标（如请求延迟、错误率）。

三、K8s日志体系：从采集到分析

3.1 日志采集模式

K8s日志分为两类：

标准输出（stdout/stderr）：容器应用直接打印到控制台的日志。
文件日志：应用写入文件的日志（需通过Sidecar或HostPath挂载采集）。

3.1.1 节点级日志采集：DaemonSet模式

通过DaemonSet在每个节点部署日志采集Agent（如Fluent Bit）：

# Fluent Bit DaemonSet示例
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: fluent-bit
spec:
  template:
    spec:
      containers:
      - name: fluent-bit
        image: fluent/fluent-bit:2.0.11
        volumeMounts:
        - name: varlog
          mountPath: /var/log
        - name: varlibdockercontainers
          mountPath: /var/lib/docker/containers
          readOnly: true
      volumes:
      - name: varlog
        hostPath:
          path: /var/log
      - name: varlibdockercontainers
        hostPath:
          path: /var/lib/docker/containers

关键配置：

挂载节点/var/log和Docker容器目录，采集所有容器日志。
配置Input插件读取日志文件，Filter插件解析JSON格式日志，Output插件发送到ES/Loki。

3.1.2 应用级日志采集：Sidecar模式

对于文件日志，可通过Sidecar容器共享卷并实时采集：

# 应用Pod带日志Sidecar示例
apiVersion: v1
kind: Pod
metadata:
  name: app-with-sidecar
spec:
  containers:
  - name: app
    image: my-app:latest
    volumeMounts:
    - name: app-logs
      mountPath: /var/log/app
  - name: log-sidecar
    image: fluent/fluent-bit:2.0.11
    volumeMounts:
    - name: app-logs
      mountPath: /var/log/app
  volumes:
  - name: app-logs
    emptyDir: {}

3.2 日志存储与分析：EFK与Loki

3.2.1 EFK栈（Elasticsearch+Fluentd+Kibana）

Fluentd：作为日志聚合层，接收Fluent Bit或直接采集的日志，写入Elasticsearch。
Elasticsearch：分布式搜索引擎，存储日志并支持全文检索。
Kibana：可视化工具，提供日志查询、仪表盘功能。

优化建议：

为Elasticsearch配置合适的分片和副本数（如3主节点+2副本）。
使用ILM（Index Lifecycle Management）自动管理索引生命周期。

3.2.2 Loki栈（Loki+Promtail+Grafana）

轻量级替代方案，适合资源受限环境：

Promtail：替代Fluent Bit/Fluentd，专为Loki设计。
Loki：按标签存储日志，压缩率高，查询速度快。
Grafana：集成Loki数据源，支持LogQL查询。

LogQL示例：

{namespace="default", container="nginx"} |= "error" | json | line_format "{{.msg}}"

查询default命名空间下nginx容器中包含error的日志，并提取JSON中的msg字段。

四、实战建议

监控指标选择：优先采集CPU、内存、磁盘I/O、网络带宽、Pod重启次数等关键指标。
日志分级存储：将调试日志（Debug）与错误日志（Error）分开存储，错误日志保留更长时间。
告警策略设计：避免“告警风暴”，设置合理的聚合周期（如5分钟内同类型告警合并）。
资源限制：为Prometheus、Elasticsearch等组件设置资源请求与限制，防止OOM。

五、总结

K8s的可观测性体系通过监控与日志的有机结合，为动态容器环境提供了全生命周期的运维能力。初学者应从Metrics Server+Prometheus+Grafana入手掌握监控基础，再通过Fluent Bit+Loki/EFK构建日志体系。实际部署时需结合集群规模、资源预算选择合适的工具链，并持续优化采集策略与存储方案。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

从零开始K8s可观测性：监控与日志全解析

一、K8s可观测性：为什么重要？

1.1 监控的核心价值

1.2 日志的核心价值

二、K8s监控体系：从Metrics到可视化

2.1 Metrics采集：cAdvisor与Metrics Server

2.2 长期存储与查询：Prometheus

2.3 可视化：Grafana

三、K8s日志体系：从采集到分析

3.1 日志采集模式

3.1.1 节点级日志采集：DaemonSet模式

3.1.2 应用级日志采集：Sidecar模式

3.2 日志存储与分析：EFK与Loki

3.2.1 EFK栈（Elasticsearch+Fluentd+Kibana）

3.2.2 Loki栈（Loki+Promtail+Grafana）

四、实战建议

五、总结

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者