本文档探讨了设计和使用GPU服务器所需的关键技术要求,包括硬件配置、软件支持及优化策略,旨在帮助用户构建高效能计算环境。
### GPU服务器技术要求
#### 数量:1台
| 项目 | 内容 | 参数要求 |
|------------|----------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------|
| **机箱** | 要求为4U机架式 | - 主板型号: Supermicro SYS-4029GP-TRT2
- 尺寸:180 x 440 x 740 (H x W x D, mm) |
| **CPU** | Intel Xeon Silver 4110,主频2.1GHz | - 核心数:16核,线程数32 |
| **内存** | 配置8根32GB DDR4 2666MHz ECC Reg 内存条 | 最大支持24根内存条 |
| **硬盘** | Seagate 企业级硬盘(1块):容量为6TB,转速7200RPM,缓存128MB;Intel S4500 SSD (1块): 容量为480G, 型号: 2.5寸SSD | 最大支持24块2.5寸硬盘 |
| **电源** | 配置冗余电源(两套),额定功率:2000W | - 冗余电源数量:共四路 |
| **系统** | 4U BB LGA2011 E5-2600v3 SM SYS-4029GP-TRT2 | PCI-E插槽配置:
- 第三代PCI-E x16 插槽数量:共十一个
- 第三代PCI-E x8 插槽数量: 一个
- Mezzanine接口数量:一个 |
| **GPU调度软件** | ACM多GPU调度软件 | - 用户作业分配到计算卡上运行,并将结果返回给用户;
- 支持交互式和批处理方式的作业提交;
- 提供实时显示作业状态信息及对系统资源进行分配与限制。 |
| **集群平台软件** | 提供在线界面用于提交以及分发GPU作业,并提供相应权限控制 | - 必须提供生产厂家的软件著作权(原件备查)。 |
#### 对制造商的要求
- NVIDIA认可的Tesla GPU CUDA Driver安装和测试报告
- ISO9001:2008质量管理体系认证工厂生产环境
- Burn in 和 function 测试,确保机器稳定性和散热性能
- 内存测试报告、操作系统稳定性测试报告
- 预装NVIDIA Tesla GPU配套应用软件:CUDA SDK等
- 提供Linux系统安装以及稳定性测试报告
#### 显卡参数(数量:4块)
| 项目 | 内容 | 参数要求 |
|------|----------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------|
| **GPU** | NVIDIA Tesla P100 GPU,主频为1.45GHz | - CUDA核心数:3584
- 显存容量:16GB |
#### 对制造商的其他要求
- 具备NVIDIA TPP (Tesla Preferred Provider)推荐供应商资质
- 至少五名及以上NVIDIA认证技术工程师和销售工程师资质
- 生产工厂通过ISO9001质量管理体系认证
- 预装NVIDIA Tesla GPU配套应用软件:CUDA SDK等
- Linux系统安装及稳定性测试报告
#### 售后服务要求:
- 官方证明:合同签订前需提供官方证明(原厂彩页、技术白皮书、盖章技术响应表或官网资料)
- 验证时间:1小时到达现场响应。