
NVIDIA DCGM: 一个用于监控和评估NVIDIA GPU健康状态的项目
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
NVIDIA DCGM是一款强大的工具,专为监测与评估大规模GPU集群中的NVIDIA图形处理器健康状况而设计。它帮助用户实时跟踪并优化系统性能。
NVIDIA数据中心GPU管理器(DCGM)是一套用于在集群环境中管理和监控NVIDIA数据中心GPU的工具。它包括主动健康监测、全面诊断、系统警报以及电源与时钟管理等治理策略。该工具可以独立使用,并且能够轻松集成到NVIDIA合作伙伴的集群管理工具、资源调度和监视产品中,从而简化了数据中心中的GPU管理工作流程,提高了硬件可靠性和正常运行时间,自动化了常规任务并有助于提升整体基础设施效率。
DCGM支持Linux操作系统,在x86_64、Arm及POWER(ppc64le)平台上均可使用。安装程序包包括库文件、二进制文件以及NVIDIA验证套件(NVVS)和API源代码示例(C语言,Python和Go语言版本)。此外,DCGM还集成了收集GPU遥测数据的功能,并已融入Kubernetes生态系统中。
全部评论 (0)
还没有任何评论哟~


