
GPU监控工具:在Linux系统中监测NVIDIA GPU的实用程序
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
这是一款专为Linux系统设计的实用程序,用于高效监测和管理NVIDIA GPU的性能与状态,帮助用户优化资源分配,确保系统的稳定运行。
该存储库包含Golang绑定和DCGM-Exporter,用于在Kubernetes中收集GPU遥测数据。
绑定:
为以下两个库提供了Golang绑定:
1. 基于C的API,用于监视和管理NVIDIA GPU设备。
2. 一组工具,在集群环境中管理和监控NVIDIA GPU。这是一个低开销的工具套件,可以在每个主机系统上执行各种功能,包括主动运行状况监测、诊断、系统验证、策略制定、电源及时钟管理、组配置以及计费。
您还将在这个存储库中找到这两个绑定的示例代码。
DCGM-Exporter:
该存储库还包含DCGM-Exporter。它利用Golang绑定为GPU指标导出提供支持。
快速开始:
要在GPU节点上收集指标,只需启动dcgm-exporter容器:
$ docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.0.13-2.1
全部评论 (0)
还没有任何评论哟~


