Advertisement

NVIDIA DCGM: 一个用于监控和评估NVIDIA GPU健康状态的项目

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
NVIDIA DCGM是一款强大的工具,专为监测与评估大规模GPU集群中的NVIDIA图形处理器健康状况而设计。它帮助用户实时跟踪并优化系统性能。 NVIDIA数据中心GPU管理器(DCGM)是一套用于在集群环境中管理和监控NVIDIA数据中心GPU的工具。它包括主动健康监测、全面诊断、系统警报以及电源与时钟管理等治理策略。该工具可以独立使用,并且能够轻松集成到NVIDIA合作伙伴的集群管理工具、资源调度和监视产品中,从而简化了数据中心中的GPU管理工作流程,提高了硬件可靠性和正常运行时间,自动化了常规任务并有助于提升整体基础设施效率。 DCGM支持Linux操作系统,在x86_64、Arm及POWER(ppc64le)平台上均可使用。安装程序包包括库文件、二进制文件以及NVIDIA验证套件(NVVS)和API源代码示例(C语言,Python和Go语言版本)。此外,DCGM还集成了收集GPU遥测数据的功能,并已融入Kubernetes生态系统中。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • NVIDIA DCGM: NVIDIA GPU
    优质
    NVIDIA DCGM是一款强大的工具,专为监测与评估大规模GPU集群中的NVIDIA图形处理器健康状况而设计。它帮助用户实时跟踪并优化系统性能。 NVIDIA数据中心GPU管理器(DCGM)是一套用于在集群环境中管理和监控NVIDIA数据中心GPU的工具。它包括主动健康监测、全面诊断、系统警报以及电源与时钟管理等治理策略。该工具可以独立使用,并且能够轻松集成到NVIDIA合作伙伴的集群管理工具、资源调度和监视产品中,从而简化了数据中心中的GPU管理工作流程,提高了硬件可靠性和正常运行时间,自动化了常规任务并有助于提升整体基础设施效率。 DCGM支持Linux操作系统,在x86_64、Arm及POWER(ppc64le)平台上均可使用。安装程序包包括库文件、二进制文件以及NVIDIA验证套件(NVVS)和API源代码示例(C语言,Python和Go语言版本)。此外,DCGM还集成了收集GPU遥测数据的功能,并已融入Kubernetes生态系统中。
  • NVIDIA-GPU-Monitor:利nvidia-smiNVIDIA GPU使
    优质
    NVIDIA-GPU-Monitor是一款基于nvidia-smi工具开发的应用程序,专注于实时监测和分析NVIDIA GPU的性能指标及使用情况。 Nvidia GPU监视器使用nvidia-smi帮助监控Nvidia GPU的利用率。 安装及使用方法如下: - 使用npm: ``` $ npm install --save nvidia-gpu-monitor ``` - 使用yarn: ``` $ yarn add nvidia-gpu-monitor ```
  • Python-GPUtil:nvidia-smi从NVIDIA GPU获取GPUPython模块
    优质
    Python-GPUtil是一款专为开发者设计的Python库,能够通过读取nvidia-smi数据来监测并管理NVIDIA GPU的状态和性能。 一个Python模块,用于通过nvidia-smi以编程方式从NVIDIA GPU获取GPU状态。
  • GPU工具:在Linux系统中NVIDIA GPU程序
    优质
    这是一款专为Linux系统设计的实用程序,用于高效监测和管理NVIDIA GPU的性能与状态,帮助用户优化资源分配,确保系统的稳定运行。 该存储库包含Golang绑定和DCGM-Exporter,用于在Kubernetes中收集GPU遥测数据。 绑定: 为以下两个库提供了Golang绑定: 1. 基于C的API,用于监视和管理NVIDIA GPU设备。 2. 一组工具,在集群环境中管理和监控NVIDIA GPU。这是一个低开销的工具套件,可以在每个主机系统上执行各种功能,包括主动运行状况监测、诊断、系统验证、策略制定、电源及时钟管理、组配置以及计费。 您还将在这个存储库中找到这两个绑定的示例代码。 DCGM-Exporter: 该存储库还包含DCGM-Exporter。它利用Golang绑定为GPU指标导出提供支持。 快速开始: 要在GPU节点上收集指标,只需启动dcgm-exporter容器: $ docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.0.13-2.1
  • Linux环境下NVIDIA GPU使详细指南
    优质
    本指南详细介绍在Linux系统中如何安装和配置工具来监测NVIDIA GPU的使用情况,包括常用命令与实用软件的使用方法。 本段落详细介绍了在Linux环境下监视NVIDIA GPU使用情况的方法,并通过示例代码进行了深入讲解。内容对学习或工作中需要了解GPU监控的读者具有一定的参考价值。希望感兴趣的朋友们能从中获得帮助。
  • 针对NVIDIA JetsonNVIDIA DRIVE平台MATLAB Coder扩展包:GPU Coder助力NVIDIA...
    优质
    该简介介绍的是MATLAB Coder的一个专门用于NVIDIA硬件平台(如Jetson和DRIVE)的扩展工具——GPU Coder。此工具使开发者能够高效地将算法转换为适用于NVIDIA GPU的优化代码,极大地促进了基于NVIDIA架构的人工智能、机器学习及自动驾驶项目的开发进程。 通过在NVIDIA Jetson和DRIVE平台的目标硬件板上构建和部署生成的代码,MATLAB Coder支持包能够自动将MATLAB算法和Simulink模型部署到嵌入式NVIDIA设备中。这使您能够在这些平台上远程通信并控制外围设备以进行原型制作。 结合使用GPU Coder时,您可以为深度学习、嵌入式视觉及自主系统生成优化的CUDA应用程序,并在Jetson和DRIVE等嵌入式NVIDIA平台上的实际硬件上部署它们。生成的应用程序会调用经过优化的NVIDIA CUDA库来提高性能。 此外,借助嵌入式编码器的支持,还可以进行软件在环(SIL)和处理器在环(PIL)仿真,以确保MATLAB算法的行为与预期相符。 GPU Coder支持多种Jetson平台设备,包括TK1、TX1、TX2、AGX Xavier、Nano及Xavier NX开发者套件。
  • Zabbix NVIDIA SMI Multi-GPU:基nvidia-smiZabbix模板,在WindowsLinux上使
    优质
    本Zabbix模板利用NVIDIA SMI监控多GPU性能,适用于Windows及Linux系统,为IT管理员提供详尽的GPU状态与健康信息。 zabbix-nvidia-smi-multi-gpu 是一个使用 nvidia-smi 的 Zabbix 模板,在 Windows 和 Linux 系统的多 GPU 上运行。其主要特性包括: - 所有图形卡的低级发现项目原型:风扇转速总计,可用和已用内存功率以十瓦为单位(数十瓦),适合用于监控。 - 温度利用率 - 图形中包含风扇速度、功率消耗和温度的原型图 - 在不同 GPU 温度下设置触发器 在 Windows 上使用时: 将文件 userparameter_nvidia-smi.conf.windows 的内容添加到您的 zabbix_agentd.conf 文件中。
  • NVIDIA GPU通过Nvidia-Docker构建运行Docker容器.zip
    优质
    本资料深入讲解了如何使用NVIDIA GPU以及Nvidia-Docker技术来高效地构建与运行Docker容器,适用于需要进行高性能计算或图形处理的学习者和技术人员。 Nvidia-docker 是一个利用 NVIDIA GPU 构建和运行 Docker 容器的实用程序。完整的文档和常见问题可以在存储库的 wiki 中找到。 快速入门指南: 确保你已经安装了适用于你的发行版版本的 NVIDIA 驱动程序和支持的 Docker 版本。
  • TensorRT:NVIDIA GPU深度学习加速器高性能推理C++库
    优质
    TensorRT是由NVIDIA开发的一款高性能C++库,专为在GPU及深度学习加速器上进行高效的深度学习模型推理而设计。 该存储库包含NVIDIA TensorRT的开源软件(OSS)组件。这些组件包括TensorRT插件和解析器(如Caffe和ONNX),以及演示如何使用TensorRT平台及其功能的应用示例。这些开源软件是TensorRT通用可用性版本中的部分内容,具有额外的功能扩展及错误修复。 对于向TensorRT-OSS代码库贡献的指南,请查阅相关文档。 有关于每个TensorRT-OSS版本新增特性和更新的信息摘要也已提供。 构建 先决条件: 要构建TensorRT-OSS组件,您需要安装以下软件包。首先需确保拥有TensorRT GA(通用可用性)版本v7.2.1。
  • NVIDIA GPU Prometheus Exporter:NVIDIA GPU Promethius导出器
    优质
    NVIDIA GPU Prometheus Exporter是一款用于监控和收集NVIDIA GPU性能数据的工具,可将数据导出给Prometheus监控系统,便于实时分析与优化。 NVIDIA GPU Prometheus导出器用于导出NVIDIA GPU指标,并使用NVML(基于C的API)来监控NVIDIA GPU设备。与其他一些类似的出口商不同,它不调用二进制文件。 构建 该存储库包含nvml.h 文件,因此构建环境没有特殊要求。可以通过执行 `go get github.com/mindprince/nvidia_gpu_prometheus_exporter` 来获取导出器的源代码并进行构建。 运行 出口商需要满足以下条件: - 访问NVML库(libnvidia-ml.so.1)。 - 访问GPU设备。 为了确保导出器可以访问NVML库,可以将它们添加到共享库的搜索路径中。或者设置LD_LIBRARY_PATH指向其位置。 默认情况下,度量标准在端口9445上公开。可以通过使用 `-web.listen-address` 标志进行更新来更改监听地址。 容器内运行 如果要在容器中运行导出程序,则需要执行以下操作以使容器可以访问NVML库: - 设置环境变量 `LD_LIBRARY_PATH=`