本白皮书深入介绍了NVIDIA Turing GPU架构的技术细节与创新功能,包括RT Cores、Tensor Cores等先进技术。适合专业人士和技术爱好者阅读。
### NVIDIA Turing GPU 架构详解
#### NVIDIA Turing 架构简介
NVIDIA Turing 架构是显卡技术的一次重大革新,它不仅提升了图形处理能力,还引入了实时光线追踪技术和深度学习功能,极大地提高了游戏和专业应用的性能与真实感。
#### NVIDIA Turing 主要特性
- **新型流式多元处理器 (SM):** Turing SM 是 Turing 架构的核心,其设计旨在提高并发执行效率,支持 FP32 和 INT32 指令的同时执行。
- **Turing Tensor 核心:** 专为 AI 推理而设计,能够提供高效能的深度学习推理能力,特别适用于数据中心的应用程序。
- **实时光线追踪加速:** 首次将硬件级别的光线追踪功能集成到 GPU 中,极大地提高了渲染真实感图形的速度。
- **着色技术的全新进展:**
- **网格着色 (Mesh Shading):** 允许开发者更灵活地控制几何体的生成过程,减少绘制调用数量,提高性能。
- **可变速率着色 (Variable Rate Shading, VRS):** 通过调整不同区域的像素着色率来提高渲染效率,同时保持图像质量。
- **纹理空间着色 (Texture Space Shading, TSS):** 在纹理坐标空间中进行着色计算,有助于减少对昂贵的像素着色操作的需求。
- **多视图渲染 (Multi-View Rendering, MVR):** 优化 VR 渲染过程,减少重复工作,提高效率。
- **深度学习功能:**
- **用于图形的深度学习功能:** 包括深度学习超级采样 (DLSS),利用深度学习技术提高渲染分辨率的同时保持性能。
- **用于推理的深度学习功能:** 支持高效的神经网络推理运算,适用于数据中心等应用场景。
- **GDDR6 高性能显存子系统:** 提供更高的带宽和更低的功耗,增强了整体性能。
- **第二代 NVIDIA NVLink:** 提供更高速的数据传输通道,适合于需要大量数据交换的高性能计算场景。
- **USB-C 和 VirtualLink:** 支持最新的连接标准,便于连接现代显示设备。
#### 深入了解 Turing GPU 架构
- **Turing TU102 GPU:** 这是一款旗舰级 GPU,拥有完整的 72 个 SM 单元,是 Turing 架构的代表产品。
- **Turing 流式多元处理器 (SM) 架构:** 每个 SM 包含多个 FP32 和 INT32 核心,以及专用的张量核心和 RT 核心,显著提高了计算密集型任务的性能。
- **Turing Tensor 核心:** 专门用于加速 AI 推理任务,可以在多种精度模式下运行,包括 FP16、INT8 等。
- **Turing 内存架构和显示特性:**
- **GDDR6 显存子系统:** 相比之前的 GDDR5 显存,GDDR6 带来了更高的数据传输速率和更低的功耗。
- **L2 缓存和 ROP:** 优化了缓存结构,提高了数据访问效率。
- **Turing 显存压缩:** 通过高效的压缩算法减少显存带宽需求。
- **视频和显示引擎:** 支持最新的视频编解码标准,如 H.265/HEVC 和 AV1。
#### Turing RT 核心
- **Turing RT 核心:** 专门为实时光线追踪设计,能够高效地处理光线与场景的交互,为游戏和专业应用带来电影级别的画面质量。
#### NGX 技术
- **NGX 软件架构:** 结合硬件和软件优势,提供一系列 AI 加速的图形和影像增强功能。
- **深度学习超级采样 (DLSS):** 利用 AI 来提高帧率,同时保持或甚至超过传统抗锯齿技术的图像质量。
- **InPainting:** 使用 AI 技术填补图像中缺失的部分,使图像看起来更加完整自然。
- **AI Slow-Mo (AISlow-Mo) 和 AI SuperRez:** 通过 AI 技术实现帧率和分辨率的提升,增强视频播放效果。
#### 先进的着色技术
- **网格着色 (Mesh Shading):** 通过将几何处理从传统的顶点着色器转移到专门的网格着色器,简化了渲染流程,提高了效率。
- **可变速率着色 (Variable Rate Shading, VRS):** 通过改变不同区域的像素着色