A Performance Model for Evaluating Inter-Node Device-Side Communication

GPU主体のノード間通信を評価するための性能モデル

AI总结

目的

本文提出并验证了一种用于评估GPU主体（即GPU内核中直接进行）节点间通信性能的模型。研究背景是：近年来，为简化GPU集群编程，出现了直接在GPU内核内描述节点间通信的编程方式。然而，与传统的CPU主体通信模式相比，这种GPU主体通信在性能上是否有优势并不明确。因此，本论文旨在建立性能模型，并用实际实验加以评估，分析GPU主体通信方式的瓶颈与优劣。

手法

通信性能建模
- 提出以GPU为主体的通信模型，假设GPU线程发出的通信命令依次进入CPU上的命令队列，并逐条处理。
- 节点间通信时间由命令队列输出速率决定。设单次通信的消息长度为M，带宽为W，延迟为L，则每条消息的通信时间为$M/W + L$。多个消息依次处理时，命令队列输出带宽为$\alpha = (1/W + L/M)^{-1}$。
二重ルーフライン模型（双重Roofline模型）
- 基于传统Roofline模型思想，不再只关注算力和内存带宽，还引入通信带宽和通信延迟的影响。
- 模型横轴为节点内存访问量与节点间通信量的比值r，纵轴为带宽。性能由本地内存带宽、通信带宽、延迟等多个“屋顶”限制。
- 指出通信延迟L可能成为性能的主导瓶颈，尤其在GPU主体通信方式下。
通信优化建议
- 提高消息长度M（如将多个待通信数组合并为单一buffer进行批量通信）有助于提升命令队列吞吐量α、减小延迟影响。
- 但这种批量化会增加代码复杂度，建议通过库实现加以隐藏。

结果

实验方法与设置
- 以3D Stencil计算为例，在1\~4节点的集群上做Weak Scaling实验，用实测性能与模型预测值做对比。
预测与实测比较
- 不论是MPI通信还是IB Verbs通信，实际测得的性能均符合模型的二重Roofline特性，即受带宽和延迟上限共同约束。
- 误差方面，MPI版的模型预测值与实测值相差43-52%，IB Verbs版误差为7.2%。误差主要来自通信协议的不同细节。

其他内容与亮点

分析结论：
- 若要让GPU主体通信达到CPU主体通信的同等性能，需要更高的数据/通信量比r。
- 增加消息长度M、减少延迟L，是提升GPU主体通信性能的关键。
模型适用范围：
- 不仅能用于分析GPU主体通信，也能作为设计和优化GPU集群通信程序的理论工具。
实际应用建议：
- 推荐在库层自动实现通信数据的合并与批处理，简化用户代码。

Zhonghui

Table of Contents

A Performance Model for Evaluating Inter-Node Device-Side Communication

AI总结

目的

手法

结果

其他内容与亮点

Zhonghui

User Tools

Site Tools

Table of Contents

A Performance Model for Evaluating Inter-Node Device-Side Communication

AI总结

目的

手法

结果

其他内容与亮点

Page Tools