Prometheus + Grafana监控平台-显卡集群监控

chen_ke_hao

40人浏览 · 2026-07-03 16:17:03

chen_ke_hao · 2026-07-03 16:17:03 发布

工作中有需要监控大量算力卡的需求，所以进行Prometheus + Grafana监控平台的部署搭建：

一：首先需要部署nvidia的显卡监控工具DCGM Exporter，先安装docker服务，再拉取必要的镜像

docker pull nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04  
docker pull prom/prometheus
docker pull grafana/grafana

二：部署DCGM Exporter，我的服务器在内网，所以先将镜像文件导入docker服务

docker load -i dcgm-exporter.tar
sudo docker run --pid=host --privileged -e DCGM_EXPORTER_INTERVAL=60000 --gpus all --restart=always -d -p 9400:9400 --name dcgm-exporter nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04

直接启动可能会报错，could not select driver with capabilities[[gpu]]，这是因为 Docker 容器运行时无法识别 GPU 设备，简单来说，Docker 本身不认识 --gpus all 这个参数，它需要 NVIDIA 提供的容器工具包来充当“翻译官”，所以还需要下载相关的依赖包，这里注意要下载与服务器操作系统版本相适配的rpm包版本，下载的版本过高可能会报其他的依赖错误导致安装失败

sudo yum install -y --downloadonly --downloaddir=./nvidia-con nvidia-container-toolkit-1.16.2-1 libnvidia-container-tools-1.16.2-1 libnvidia-container1-1.16.2-1

cd nvidia-con && rpm -ivh *.rpm

现在再运行DCGM Exporter 容器后，容器启动正常

三：部署Prometheus，先将镜像导入内网服务器中

docker load -i prometheus.tar
mkdir -p /home/prometheus
cd /home/prometheus

cat > prometheus/prometheus.yml << 'EOF'
global:
  scrape_interval: 15s      # 数据采集间隔

scrape_configs:
  # 1. 监控 Prometheus 自身
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']

  # 2. 监控 NVIDIA GPU 数据 (刚刚部署的 dcgm-exporter)
  - job_name: 'nvidia-gpu'
    static_configs:
      - targets: ['localhost:9400']
EOF

创建 Docker Compose 启动文件 (docker-compose.yml)

cat > docker-compose.yml << 'EOF'
version: '2.2'
services:
  prometheus:
    image: prom/prometheus:latest
    container_name: prometheus
    restart: always
    ports:
      - "9090:9090"
    volumes:
      - ./prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
      - prometheus_data:/prometheus
    command:
      - '--config.file=/etc/prometheus/prometheus.yml'
      - '--storage.tsdb.path=/prometheus'
      - '--storage.tsdb.retention.time=30d'  # 数据保留30天
      - '--web.enable-lifecycle'             # 支持配置热重载
volumes:
  prometheus_data:
EOF

docker-compose up -d  #启动容器

查看容器运行状态，测试prometheus接口，查看prometheus服务页面

在浏览器中访问 http://<服务器IP>:9090，在顶部的查询框中输入 DCGM_FI_DEV_GPU_UTIL，如果能查到图表或数据，说明 Prometheus 已经成功对接了 GPU 监控

四 Grafana部署，首先导入镜像，创建应用目录

docker load -i grafana.tar
mkdir -p /home/grafana/{data,provisioning/datasources}
cd /home/grafana

创建 Docker Compose 文件 (docker-compose.yml)

version: '2.2'
services:
  grafana:
    image: grafana/grafana:latest
    container_name: grafana
    restart: always
    ports:
      - "3000:3000"
    volumes:
      - ./grafana/data:/var/lib/grafana      # 数据持久化
      - ./grafana/provisioning:/etc/grafana/provisioning # 自动配置数据源
    environment:
      - TZ=Asia/Shanghai                     # 设置时区
      - GF_SECURITY_ADMIN_PASSWORD=admin123  # 初始化密码（建议修改）
    user: "472"                              # 防止权限问题

然后还需要将data目录的权限改为472，否则容器启动会报错，启动容器后可以看到系统也，页面

chown -R 472:472 /home/grafana/data

从NVIDIA DCGM Exporter Dashboard | Grafana Labs，下载监控模板文件，然后到内网平台上上传

选择Prometheus数据源，然后配置Prometheus的IP和端口，就可以查看显卡状态了

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

嵌入式、手机、电脑：从原理到关系 | 延伸阅读

嵌入式是为特定任务定制的简化版计算机，手机是高级嵌入式，PC是通用计算机。三者底层原理相同，区别在于规模、性能、用途。学通一个，其他都是举一反三。都是冯·诺依曼架构的计算机：都有输入、输出、存储、CPU（运算器+控制器）都从存储器读指令执行操作系统和程序都跑在内存里嵌入式是为特定任务定制的简化版计算机，手机是高级嵌入式，PC是通用计算机。三者底层原理相同，区别在于规模、性能、用途。学通一个，其他都

openEuler 社区

总结 7。03

还有伯努利公式，把y换成另一个变量，通过乘上1－阿尔法乘y的负阿尔法次方。还有二重积分，首先是画积分区域，需要灵活使用对称性，还有注意隐函数方程构成的式子的关于y＝x的对称性，使用描点法时两个点可能更好。还有408，今天主要是学了操作系统的内核态常用指令是管理内存，处理异常和中断，关于时钟周期的指令，关于io的指令，还有关于进程的指令，其他指令就大概率是用户态。操作系统是cpu的软件部分，程序状态